财新传媒 财新传媒

阅读:0
听报道
集智俱乐部

集体注意力与人类计算读书会

 

时间:2015年10月11日 下午2点30

地点:706青年空间

主讲人:曾凡齐、张江(北师大系统科学学院)

活动提要

1. 阅读文献 Lingfei Wu,Jiang Zhang, Min Zhao: The Metabolism and Growth of Web Forums; PLoS ONE 2014, 9(8): e102646

 

2. 讨论如下内容:

(1)关于读书会的后续安排

(2)众包图书:《互联网的动力引擎》

(3)其他有关众包、游戏的创意

 


 

每天,都会有许多人浸泡在各种各样的在线社区,发帖回复,点击浏览,上线下线。当我们把自己的注意力供给与这些论坛时,是否有思索过论坛纷繁的贴文背后是什么样的机制让其兴盛抑或衰落。

The Metabolismand Growth of Web Forums的作者提出利用stickiness(粘性)的方法来审视论坛的生长特性,文中作者给出了一种新的对粘性的定义,与以往的定义不同的是,本文的“粘性”是不受时间影响的量,并且超越了对单个用户的关注,能反映不同用户之间的交互。用户的交互越多,气氛越活跃,论坛的粘性也就越大。

一般地,点击流指的是人们浏览网站时点击打开各个网页所形成的行为记录,可以用网络图的形式把这些记录描述出来。在下图中,带圆圈的数字表示有0至5总共6个不同的网页或者帖子,用箭头表示帖子之间的跳转关系,箭头上的数字表示用户的浏览次数,例如此图中有2个用户看完1号帖子后又点开了2号帖子。这样就构建出了基本的点击流网络。

 

 

关于stickiness(粘性),有的定义为网站吸引和留住用户的能力(Zott et al., 2000),有的定义为用户访问网站的频率和时间长短(Ruth Rettie, 2001),也有的定义为平均区间程度L(Bucklin RE, etal., 2003)。从后者可以看出,粘性与时间因素相关。而在The Metabolismand Growth of Web Forums里,作者提出的粘性定义反映出了网络的动态特点和用户之间的交互程度,同时一个论坛的粘性值是稳定的,不会随时间的改变而变化。

 

作者采集了百度贴吧、Delicious和Flickr三种数据来源。对于百度贴吧的数据,按小时切片处理,对于国外两个论坛的数据按天进行切片处理。以百度贴吧的数据集为例,在每个小时的数据记录里面可以看到两种信息。一种是每个用户唯一的cookies编号,用户的总数定义为Unique Visitors,记为UV;一种是论坛里的帖子的编号,用户在一个小时内会浏览不同的帖子,这些帖子被浏览的总次数定义为Page Views,记为PV。下图表示的是一个小时的贴吧访问记录,左边一列的大写字母表示3个不同的用户,右边的数字表示6个不同的帖子,这里UV的值为3,PV 的值为10。

据此,可以计算出贴吧各个小时的PV和UV值。下图显示的是某贴吧24小时的趋势图,从图中可以看出随着时间的变化,PV与UV的变化趋势基本一致。

再在双对数坐标系下作出全部时间段的PV和UV的关系图,下图中,左边是3个贴吧的数值关系图,右边的是两个国外论坛的数值关系图。从对数坐标系下的图形趋势可以看出PV与UV之间存在幂律关系。

 

在分析了论坛的全部时间跨度的PV和UV值后,作者发现两者之间存在着幂律关系:

而对实际数值拟合得到的指数theta即可作为表示论坛粘性的数值。进一步分析,取:

当theta等于1时,意味着该论坛的帖子总浏览数随用户数线性增长,论坛的平均区间长度保持不变;当theta值大于1时,论坛用户数量的小幅增加会带来帖子浏览量大幅度的增长,用户越多,他们之间的交流互动也就越多,这种非线性的增长显示了论坛对用户的粘性,论坛的平均区间长度也会增长。

从宏观上来看,此时的论坛的粘性值theta不随时间而变,这是因为theta的计算都是通过对所有时间范围的PV和UV拟合而来,而非通过某个时间点的数据计算得出。随后对theta拟合情况进行的KS的检验也表明,绝大多数的贴吧拟合程度较好。

有了宏观上的考量之后,作者又进行了微观层面上的分析。

根据数据集,可以构建出论坛每一小时的点击流网络,网络的节点表示不同的帖子,网络的连边表示用户从一个帖子跳转到了另外一个帖子,连边的权重表示累计跳转次数。构建好初始的点击流网络后,再对网络进行平衡性处理。即在网络中加入源(source)和汇(sink),这样做的目的是模拟用户上线和下线的行为。从源开始,每一用户开始上线进入论坛浏览帖子,一段时间后,有些用户可能会下线退出论坛不在浏览,下线的用户会汇集到网络的汇。通过这种方法,让这个网络实现了网络的平衡,除了源节点和汇节点,剩下的每个节点的入流等于出流,源节点的出流等于汇节点的入流。

 

构建好流网络后,就可以研究每个节点的特性了。作者将流过节点i的总流量值记为Ti,从节点i直接流入汇的流量值记为Di。作出一个小时的Ti与Di的双对数图,同样发现两者之间存在着幂律关系:

这里指数gama表示节点的耗散率。类似theta,当gama值大于1时,节点总流量的小幅增加会带来大量的耗散,一个形象的比喻是,论坛上存在一个“标题党”式的帖子,很多人被题目吸引点开了帖子,结果发现大失所望,于是不仅关掉了这个帖子,甚至心生厌恶关掉退出了论坛。

一个论坛的粘性越大,对用户的吸引也就越大。粘性与耗散率之间有没有什么关系呢?在实证分析中,作者发现theta与gama之间存在着负相关的关系,一般地,论坛的粘性值theta越大,其耗散率gama会越小。同时,作者还发现一些论坛可能还存在着最适规模,最适规模下的粘性值最大、耗散率最小,大于或者小于这一规模时,论坛的粘性值会下降。

完成了实证数据的分析后,作者建立了一个二维的随机游走模型来模拟用户的行为。先是在二维平面上选定的区域中心放置一个种子坐标(模型中,只取整数坐标),然后均匀地向区域里放置N个用户,这些用户会随机游走并且以概率p产生新的帖子直到他在r*r的范围内看不到有帖子存在。随机游走的数目记为UV,所有帖子被浏览的次数记为PV,帖子的Ti表示到达它的随机游走次数,Di表示从它离开此系统的粒子数。最终的计算结果表明,该模型能够较好地拟合出论坛的粘性以及耗散的特性。


 

 

最近,对该模型又有了新的改进,采用列维飞行的方法模拟用户的行为。具体来讲,同样在二维平面(所有的坐标点为整数值),先投放N个初始用户,随后在每一次的迭代中,各个用户进行列维飞行,随机跳到下一个坐标点上。当一个座标点上同时有2个及以上的用户时,这个坐标点上的用户就会存活下来继续跳转,否则就会“死去”。一段时间后,N个用户都会“死去”,我们把用户量N记为UV,全部用户跳过的坐标点的次数之和记为PV;Ti与Di的值为每个用户跳过的坐标点的总流量和经过该坐标点“死去”的用户数量。最终的计算表明,该模型也能很好地模拟论坛的粘性和耗散。

总的来看,在The Metabolismand Growth of Web Forums一文中,作者从宏观和微观上对在线社区进行的研究,并且给出了不依赖时间变化的粘性的定义,与其他关于网站粘性的研究不同,文章中的粘性体现更多的是不同用户之间的交互,用户交互程度越热烈,反映出的论坛的粘性也越大。在微观层面,作者还研究了论坛的耗散特性。实证表明,粘性与耗散率之间存在着负相关关系,粘性越大时,论坛的耗散越小,人们越愿意留在这个论坛上。

从文章的研究方法和思想出发,我们还可以将研究其他系统的粘性,例如研究经济领域,哪些市场对资本投资更有粘性;在城市系统中,也存在着人群密度的疏密,分析探究不同地理区域的粘性,也可以为城市的发展规划提供思路方法。

 


【关于我们】

官方网站:www.swarma.org

微信公共账号:swarmagents

 

成为集志(集智俱乐部志愿者),请打开下面链接或者扫描二维码,填写报名表。

http://form.mikecrm.com/f.php?t=fjfs9V

 

b5e2c97537df501d9565e4110c4db0be.png

话题:



0

推荐

集智俱乐部

集智俱乐部

504篇文章 2年前更新

集智俱乐部,英文名Swarma Club,成立于2003年,是一个从事学术研究、享受科学乐趣的探索者的团体。它倡导以平等开放的态度、科学实证的精神,进行跨学科的研究与交流,力图搭建一个中国的“没有围墙的研究所”。公众号:集智俱乐部,官网:swarma.org。

文章