财新传媒
位置:博客 > 集智俱乐部 > Nature物理:诺贝尔奖更偏好年轻的小团队吗?

Nature物理:诺贝尔奖更偏好年轻的小团队吗?

1925年,泡利25岁,海森堡和恩里克·费米(Enrico Fermi)24岁,狄拉克则只有23岁,量子物理学的创始人在非常年轻的时候就做出了改变世界的贡献。更著名的例子是爱因斯坦1905奇迹年,平地里一个惊雷,怎么看都没有丝毫征兆。物理领域之外,发现DNA双螺旋结构的克里克(Francis Crick)在37岁时,还没有拿到博士学位,三年后却拿到了诺贝尔奖。
 
以上的例子可能会让你觉得诺奖得主都是超级英雄,但近日“Nature Physics”上一篇由美国西北大学王大顺等人得出研究结果却反驳了这一观点。
 
要超越简单的举例论证,就需要系统性地收集待研究问题的数据。为了鼓励数据集的开放,现在有时即使只是收集数据,也有可能发Nature。最新推出的Scientific Data,让研究者可以将数据集单独作为一项成果发表,与上面王大顺等人文章相伴的,就是这样一份数据集,其中包含了1900-2016年间545位物理、化学和医学诺贝尔奖得主所发表文章及其引用相关的数据。基于这份数据集,研究者要回答的问题是,诺奖得主的科研生涯是否具有特殊性。
论文题目:
Nobel laureates are almost the same as us
原文链接:
https://www.nature.com/articles/s42254-019-0057-z
 
诺奖级贡献,多数由年轻人完成
 
研究者首先对数据进行可视化,下图统计了两位诺奖得主在整个科研生涯中的文章被引用情况,其中的每条线代表一篇论文,按时间的先后将每位科学家的成果按影响力展示出来。直观地看很难找到普遍规律,我们可以提取更高阶的统计值,来评估科学家的重要成果是否是随机出现的。
 
 
如果一篇诺奖级别文章在该科学家一生发表文章的相对位置是随机出现的,那发表这篇文章之前,该科学家已发表文章的之和的相对位置,就应该是呈共线性的。
 
但真实情况下却不是这样的,下图展示的是科学家获得诺奖表彰的研究成果(绿色)与其被引用最多的文章(红色)在发表年龄上的分布。图中的横轴是该文章在该科学家科研生涯中所占的相对位置,纵轴是该文章已发表时之前该科学家已发表文章占该科学家总发表文章的比例。
 
科学家获得诺奖表彰的研究成果(绿色)与其被引用最多的文章(红色)在发表年龄上的分布。
 
由于51.74%的诺奖文章就是该科学家被引用最多的文章,通过该图可以得出,大部分诺奖级的科学家是在职业生涯的早期做出突破性的贡献的。就像爱因斯坦说的,一个人如果无法在30岁之前对科学界做出革命性的贡献,那就再没有机会了。
 
任何年龄,都可能做出重要工作
 
然而去除了诺奖级的文章,这些顶尖科学家的其他重要文章就又是另一回事了。
 
下图b展示了诺奖得主在去除了获奖文章之外,其引用前三的文章在发表时间上所处的相对位置。
 
这里基本就符合随机出现的假设了,这意味着诺奖得主在其职业生涯的大多数时候(除了做出诺奖相关的成果以外的时间),也不知道自己引用最多的三篇文章是什么时候写出的。
 
而这正是大多数普通科研人员所面对的“无知之幕”,幸好我们都不知道自己何时能取得突破,因此不管多么年老,都有不放弃的理由。从这个角度来看,诺奖得主和大部分科学家在大部分时候没什么区别。
 
诺奖级贡献,多数来自小团队
 
除了出名更早之外,诺奖得主相比于其他科学家,其诺奖级成果,更可能是两人及以下的小团队做出的。
 
下图展示的诺奖论文和该作者临近的一篇文章是否来自小团队的概率。不管是那个学科,诺奖级的成果有更大概率的来自于小团队,而除去诺奖成果后引用最多的文章却并一定是来自小团队的。
 
 
图中的NS代表俩者经过卡方检验,并无统计显著的区别,***和**分别代表p值小于0.005和0.01。这支持了最初通过举例子想要论证的结论,大成果有更大可能来自小团队。需要注意的是,这不等价于小团队更容易产生大成果,要论证后者,需要在数据集中加上众多一无所成的小团队。
 
考虑到诺贝尔奖不会授予已去世的科学家,上文展示的诺奖成果和其他成果在发表时间上的不一致现象,就可以部分得到解释。由于诺奖奖励的成果都必须有具体的应用,而从做出发现到衍生出应用,往往要经过很多年,这导致很多大器晚成的科学家没能等到诺贝尔奖委员会承认他们工作的那一天。
 
如果我们从常识出发,假设诺奖得主在做出其诺奖级成果时并不是处在“超人”的状态,那上述的不一致表示了我们缺少那些在职业生涯晚期或中期才做出诺奖级别成果的科学家的数据,也就是有一批本该得诺奖的科学家没有赢得过时间。
 
诺奖之外,做科研需要“出名趁早”吗?
 
有了诺奖科学家发表文章的数据集,还可以研究更多的和成功有关的问题。
 
例如科学家是否存在颠覆时期,即连续产生几篇高质量的文章。这个问题需要转换成概率的比较,例如用诺奖相关的文章前后的三篇文章中,是否包含引用前三的文章概率来比较,当然读者也可以用自己想出的方式来定义相关统计量。
 
另一个有趣的问题是不同学科的科学家是否存在着不同的巅峰年龄,可以通过比较诺奖相关文章发表时作者的年龄分布来确定。
 
而第三个值得关注的问题是年龄的多样性是否对诺奖级的成果有所助益。考虑到诺奖成果大多来自年轻人的小团队,那其团队中的成员的是否存在较大的年龄差异?假设定义团队中年龄差异大于8岁算是年龄差异较大,那诺奖级的成果有多大比例学科来自于年龄多样化的团队了?
 
王大顺等人这项工作所公开的数据集,仍有待挖掘的空间,以上的这些问题,只是笔者抛砖引玉,感兴趣的读者可以自行下载数据,尝试分析。
 
作者:郭瑞东 
审校:刘培源
编辑:陈安林
推荐 0