阅读:0
听报道
导语
网络科学的关键节点是1999年的Barabási等人的无标度网络模型和1998年邓肯瓦茨等人的小世界网络模型。但网络科学的起点真的在这里吗?不,网络科学的思想脉络其实非常久远。
本文整理自汪小帆教授在计算传播学年会上的演讲《从无标度网络研究历史看想法传播》(演讲视频回放https://campus.swarma.org/gcou=10587)
科学上有一个普遍的现象,是同一个科学发现,它的不同形式在不同时间和地点被不同的人重新发现,这样的例子屡见不鲜。
1.网络科学二十年,何处是起点?
点燃网络科学的两篇文章是1998和1999年的两篇经典论文。
这两篇文章每篇都有超过三万次的引用,我们从文章被引变化,看到了它们是如何点燃身后的网络科学研究轨迹。本文将以无标度网络为例,试图追溯其思想源头。
什么是无标度网络,简单说就是说一个网络上节点的度(节点所在连边的数量)分布服从幂指数为2和3之间的幂律分布。该网络中大部分节点的度值较小,少部分节点的度值较大。
广义来说,只要这个网络不具有特征尺度,也是是说它的平均度值不代表这个网络的典型度值,我们就称它是无标度网络。从物理学角度看,如果一个网络中节点的度值有个位数的,有十位数的,也有百位数和千位数的,有有不同数量级的度值,我们可以粗略认为它是无标度网络。而在数学上,则把幂函数的标度不变性作为判断标准。
1999年Barabási小组发了两篇文章,第一篇文章将万维网是无标度网络,其入度分布、初读分布都服从幂律分布。而第二篇文章,将不仅万维网、还有其他几种网络度分布也符合幂律分布,进而提出了无标度网络模型,所谓BA模型。
BA模型基于两个假设,1.网络不断增长,2.增长过程服从优先连接机制,即新加入的节点倾向于连接那些已有连边较多的节点。这是一个非常精彩的假设,但在原始论文中,没有给出与这一思想有关的参考文献。
没有相关参考文献的原因可能有两种,一种是他们之前没有人发现网络的这一特征,第二种是确实有前人的基础研究,但作者没有看到。
2.幂律分布和优先连接,Price模型早已看透
实际上,我们通过文献检索,还是可以看到前人留下的蛛丝马迹。第一个浮出水面的,是这位Price(Derek J.de Solla Price)。
Price早在1965年,就发表了一篇《Power law in citation Networks》。该研究结论中不管是出度还是入度,其实都是服从幂律分布的,甚至连幂指数都给出来了。
所以1999年的“万维网是幂律分布”大家认为是伟大发现,但其实60年代就有过很明确的对于网络度幂律分布的研究,只是当时没有引起太大关注。
到1976年,Price更是写了一篇文章,简直就是1999年Barabási那篇文章的70年代翻版。他提出了一个累积优势的分布,该分布基于“成功的人更成功”,其实就是优先连接的通俗说法。
Price不仅揭示了网络节点的度存在幂律分布,甚至给出了幂律分布的增长有有优先连接机制,其思想与今天的BA网络很接近。Price模型就是BA模型的无向形式,它甚至更加一般化。在Mark Newman的经典教材Networks中,用很长的篇幅阐述了Price的贡献。
3.Simon,人工智能先驱对网络科学的贡献
我们自然会继续追问,Price的思想是从哪里来的?
在Price提出连接机制的文章中,提到了“语言中一个单词出现的次数会越来越多,有的会越来越少,在统计中这样的构成被称为skew or hyperbolic distribution function(偏斜或双曲分布函数),而这一函数是由Simon最先刻画出的”。显然,Price的思想受到了Simon的启发。
Simon是著名的计算机科学家,人工智能的先驱。他的交叉学科可能无人能比,获得了政治学的博士学位,获得美国心理学界的最高奖,获得了计算机科学的图灵奖,获得了经济学的诺贝尔奖…
Simon在1955年的时候,就写过于一种概率密度分布的文章。他以写书为例,假设你正在写一本书,并且已经写了k个单词,那么第k+1个单词是一个新单词的概率为α,第k+1个单词是旧单词的概率是1-α。
由此就可以得到:一个已有单词被选中的概率与该单词已经出现的次数成正比。这就是典型的优先连接。
从这一角度看,Price模型是Simon模型的网络形式,一篇已有文章被引用的概率与该文章已被引用的次数成正比。而BA模型是Price模型的无向化,一个已有节点被选中的概率与该节点的度值成正比。
我们继续追问,Simon继承了谁的想法?
4.Yule,优先连接机制的源头
Simon在文章把他介绍的分布命名为Yule-distribution,认为这应该归功于统计学家Yule。
详情请见维基百科的Yule-Simon distribution词条:https://en.wikipedia.org/wiki/Yule–Simon_distribution
Yule 在1922年发现,在生物分类中,少量的属包含大量的物种,而大多数的属只有少量的物种,物种分布是服从幂律分布的!
而在1925年,Yule 对为什么物种种类分布服从幂律分布,从数学角度做了解释。
物种突变有两种类型,一种是小的变异,在同一个属内产生新物种,速度为s。另一种大的变异,直接产生一个新的属,速度为g。由这两种产生新物种,速度不同,但速度又相对稳定。而物种分布曲线的幂指数,正是由这两个速度的比值s/g决定的。
在论文中虽然没有针对复杂网络,但Yule已经画出漂亮的双对数曲线,清晰地看到幂律分布的特征,并且从物种诞生的概率和速度的角度,对幂律分布的成因做出了解释。
这一路下来,我们就找出了幂律分布产生的随机框架——从Yule到Simon再到Price的脉络。幂律分布的随机框架一直可以追溯到1924年,一百年前的科学家不仅发现了幂律分布,而且甚至给出了产生幂律分布的优先连接机制。
在科学传播中,我们往往认为第一个发现的最重要,但事实上,很多时候你根本不知道第一个发现的是谁。往往是最后一个发现的,反而是最重要的。所谓最后一个发现,其实是“直到它为止,这个现象才推广传播开、才被公认”。
科学思想传播的这一特点,在网络科学领域十分明显。
编辑:孟婕
话题:
0
推荐
财新博客版权声明:财新博客所发布文章及图片之版权属博主本人及/或相关权利人所有,未经博主及/或相关权利人单独授权,任何网站、平面媒体不得予以转载。财新网对相关媒体的网站信息内容转载授权并不包括财新博客的文章及图片。博客文章均为作者个人观点,不代表财新网的立场和观点。