财新传媒
位置:博客 > 集智俱乐部 > 【读书会总结】Web演化的动力引擎

【读书会总结】Web演化的动力引擎

集智俱乐部

集体注意力与人类计算读书会

时间:2015年10月25日14:30

地点:中国人民大学理工配楼101B室

主讲人:李勇(中国人民大学信息学院博士研究生)

活动提要


如果把Web看作一个虚拟生命组织,根据新陈代谢理论,Web必须吸收“能量”来生长、繁衍和发展。

1. Web发展所需“能量”来自何方?

2. 基于这种“能量”,一个站点能否在整个Web上产生宏观影响力?


近20年来,随着互联网的爆炸式发展,对Web的发展演化机制已有大量的研究成果,这些研究大多数通过静态的超链接分析来探究Web系统的整体结构以及Web站点的影响力,出现了一些有影响的研究成果,例如,Broder等人于1999年发现Web的结构类似于一个蝴蝶结形状[1],也提出了如PageRank[2]、HITS[3]等有较大影响的算法。然而,这些定量方法都很少考虑在线群体用户行为对Web演化的作用。

根据2012年的一项统计显示[4],全球每秒有571个新的Web站点建立,这个增长速度还在不断被刷新,同时,每秒钟有大量的站点被淘汰关停。是什么因素导致Web如同一个生命组织一样能够生长、变化、乃至死亡呢?新陈代谢理论告诉我们,生命的演化需要吸收能量,尽管Web的发展离不开资本和电力等要素,但直觉上这些都不是其发展演化的核心动力,Web演化所需的“能量”是什么?站点能否基于这个“能量”产生在整个Web上的宏观影响力?

诺贝尔经济学奖、图灵奖获得者,人工智能之父赫伯特·西蒙(Herbert Simon)曾指出[5]:“信息的丰富使得注意力变得稀少,在不远的将来,注意力将扮演一个越来越重要的角色”。如图1所示,受此启发,我们猜测Web演化的动力就是由千百万个体用户组成的在线群体用户的注意力流,并由此产生站点的宏观影响力。为证实这一假设,我们借鉴生态学中的新陈代谢理论,采用类比和实证数据验证这一猜测。

图1 注意力流作为Web演化的“能量”

注意力流定义为一个在线用户对一系列Web页面有序的点击行为。我们获得CNNIC提供的30000多名志愿者用户每日在线冲浪行为数据的样本,这些在线行为数据被称为大数据时代的“小数据”(注:这里“Small data”特指在线用户行为数据,而不是数据量“small”的数据)。基于加权复杂网络方法研究了注意力流网络,并结合生态学中有关新陈代谢理论的Kleiber律[6],如图2所示,研究Web站点的新陈代谢率,分析群体注意力作为能量如何流入Web站点又如何耗散并流出站点。

图2 新陈代谢理中的的Kleiber律

1 注意力流网络

首先将每个用户点击页面的时间戳和地址信息按时间顺序提取出来,然后将将页面信息转换成域名信息,得到用户注意力从一个站点到另一个站点的转换序列。建立如图3所示的注意力流网络,用图G表示,其中节点“source”和“sink”分别表示注意力流的“源”和“汇”。

图3 注意力流网络

2 基本变量

将有向图G转换成带权矩阵,矩阵中的元素表示从站点i到站点j的注意力流强度。由矩阵产生图G上的马尔可夫概率转移矩阵P并得到fundamental矩阵U:

定义一个向量Ti,表示群体用户在站点i上的总浏览时间 (以秒为单位)。由矩阵M可得到给定站点i的流入或流出的注意力流强度Ai:

定义站点影响力Ci为:

基本变量Ai和Ci参考了文献[7]的方法,该方法用来评估食物链网络中新陈代谢率的异速标度律。

3 注意力流网络中的异速标度律

将站点的影响力Ci、注意力停留总时间Ti以及站点注意力流的流强度Ai三个变量对应的数据画在一个双对数坐标系中,发现数据的分布呈现出一定的规律。如图4所示,在双对数坐标系中,Ci和Ti之间的关系拟合的直线斜率约为0.39,说明这两个变量之间的关系近似于一个幂律关系:

k为标准化常量,类似于图2所示的Kleiber律。由于指数<1,表明Ci和Ti之间是一种亚线性关系。我们的直觉一般会认为“一个站点吸引用户的生命时间越大,则站点的影响力就会越大”,然而,研究结果却表明,对于大部分站点,通过吸引用户停留时间并不能完全带来站点影响力的提升。

如果把Ci看作其新陈代谢率(metabolism rate),把Ti看作体量(body mass),由于<1,则每单位能量产生的影响力(Ci)随体量的增大而减少,说明大的Web站点比小站点能更有效地利用吸收到的用户生命时间。另一方面,由于每单位Ti所能产生的Ci随吸收到的用户生命时间的增大而减少,表明小型Web站点可以在一定程度上通过吸引眼球的方式获得一定的影响力,但大型Web站点依靠用户的停留时间无法维持其影响力。

图4 站点的影响力Ci和注意力停留总时间Ti之间的标度关系

流强度Ai与站点的宏观影响力Ci之间的标度关系如图5所示,如同另一个Web版的Kleiber律:

指数β=1.15>1,表明Ai与Ci之间是一个超线性的关系,生态学中将这一现象称之为加速生长。

图5 流强度Ai与站点的宏观影响力Ci之间的标度关系

图5表明,如果一个站点能从其它站点获得更多的转移而来的注意力流,则该站点在整个Web中的宏观影响力将更强。同时,由于β>1,将Ai与Ci之间的关系进行差分之后会发现,大站点需要较少的注意力流就可维持其在Web上的影响力。

4 注意力流模型的简单应用

根据站点影响力Ci的值可以对站点在整个Web上的宏观影响力进行排名,如表1所示(注:我们获得的数据是2012年8月的,与当前的影响力应该有差异)。

为了证明注意力流模型的有效性,我们用常用的超链接分析方法作对比。文献[8]报道了祝建华等人通过爬取获得2006年1月到2月间中国830M的Web页面,基于海量数据对中国Web整体状况进行分析,他们利用50多台并行服务器,整个分析过程历时超过一年。如表2所示,从三方面进行比较:(1)超链接模型需爬取海量Web页面数据,注意力流模型仅需在线用户点击流的样本数据;(2)超链接模型需要大量机器来爬取和分析数据,而注意力流模型仅需一台PC机或服务器即可;(3)两种分析模型所耗费的时间差别也很大。

表1 站点排名(根据Ci的值)

表2 两种评估模型的比较

5 总结

由分析可知,如果一个站点要在整个Web中获得较大的宏观影响力,最核心的任务是从其它站点上吸引大量的用户将注意力转移到该站点上。因此,站点内容的新颖性、创新性、更新的频率、贴近用户日常生活性等因素是站点影响力中最核心的因素。

我们的研究表明,站点的影响力Ci与群体用户注意力停留总时间Ti以及站点注意力流强度之间存在类似于图2的Kleiber律,说明人类创造的最大人工物——Web系统同样受自然界普适的新陈代谢规律制约。“复杂世界,简单规则”这一系统科学和复杂性科学的规律再一次得到验证。通过与生态系统的新陈代谢规律类比,以及实证数据分析,我们认为Web发展所需的“能量”就是电脑前无数个用户组成的群体用户的注意力,吸引的注意力流越强,站点影响力越大。当然,这种类比分析的方法也有其局限性,我们希望通过这一简单研究工作抛砖引玉,吸引更多的研究人员关注群体注意力流的研究。

(欲了解更多本文研究,可阅读参考文献[9]论文全文)


本期读书会视频

多贝(附高清PPT同步):http://www.duobeiyun.com/jiangzuo/record/jz41407ad076fd456c930c65af0ea85da2

优酷视频: http://v.youku.com/v_show/id_XMTM3MzI0MTg0OA==.html

演讲稿下载地址:http://pan.baidu.com/s/1ntAKjUD

参考文献

[1] Broder A, Kumar R, Maghoul F et al. Graph structure in the web. Computer Networks, 2000, 33(1-6):309-320.

[2] Bianchini M, Gori M, Scarselli F. Inside pagerank. ACM Transactions on Internet Technology, 2005, 5(1):92-128.

[3] Kleinberg J M. Authoritative sources in a hyperlinked environment. Journal of the ACM, 1999, 46(5):604-632.

[4] http://mashable.com/2012/06/22/data-created-every-minute/#AvQ5onlCGmqy

[5] Simon H A. Designing organizations for an information-rich world. In Computers, Communication, and the Public Interest, Martin G (ed.), Baltimore, MD: The Johns Hopkins Press, 1971, pp.40-41.

[6] Kleiber M. Body size and metabolism. Hilgardia: A Journal of Agricultural Science, 1932, 6(11): 315-353.

[7] Zhang J, Guo L. Scaling behaviors of weighted food webs as energy transportation networks. Journal of Theoretical Biology, 2010, 264(3):760-770.

[8] Zhu J, Meng T, Xie Z et al. A teapot graph and its hierarchical structure of the Chinese Web. In Proc. 17th Int. World Wide Web Conference (WWW2008), April 2008, pp. 1133-1134.

[9] Li Y, Zhang J et al. Quantifying the influence of websites based on online collective attention flow. Journal of Computer Science and Technology(JCST), 2015, 30(6)


下期读书会预告

集智俱乐部

主题:点击流社会学:一种基于点击流数据的人类行为分析方法

时间:2015年11月8日14:00

地点:待定(请关注集智公众号后续通知)

主讲人:百川(北京大学信息管理系2013届博士)

研讨内容:如果把互联网理解为一个虚拟社会,那么这个社会的社会学研究应该如何开展?相比传统的社会学研究,虚拟社会的研究有着无可比拟的工具优势:人们的行为可以被全样本、细粒度、定量、连续的采集和跟踪,基于这样的大数据条件,传统的理论建模及有限的调研验证方法开始可以让渡于基于大规模行为数据进行直接建模和规律发现。而其中,点击流是互联网用户行为的主要表现形式。在此之上,我们有机会以点击流数据为基础,尝试勾勒和描述人类在互联网这个虚拟社会上的个体与群体行为。
此次研讨的话题是:
(1) 点击流数据的基本形式及其当前的一些产业应用;
(2) 点击流数据如何与社会层面的需求与态度相呼应?
(3) 基于点击流的行为研究可以有哪些领域和哪些视角的探索?

参考文献:[1].刘合翔. 政府网站用户行为特性及其应用研究[D], 北京大学, 2013


【关于我们】

官方网站:www.swarma.org

微信公共账号:swarmagents

成为集志(集智俱乐部志愿者),请打开下面链接或者扫描二维码,填写报名表。

http://form.mikecrm.com/f.php?t=fjfs9V

b5e2c97537df501d9565e4110c4db0be.png

推荐 0