Science最新综述：计算社会科学十年，反思与展望-集智俱乐部的财新博客-财新网

导语

2009年2月6日，David Lazer、Alex Pentland为首的15位学者在Science上发表题为“计算社会科学”的观点文章，标志着这一交叉领域的诞生。时隔十年，今年8月28日，David Lazer、Alex Pentland,、Duncan Watts领衔的15位学者在Science的政策论坛专栏发表文章，反思计算社会科学领域研究的不足，包括：数据分享、研究伦理以及激励机制，同时提出五条建议：加强协作、完善新型数据基础设施、注重伦理和法律以及社会影响、重组大学组织结构，解决实际问题。

论文题目：

Computational social science: Obstacles and opportunities

论文地址：

过去十年，计算社会科学 (Computational Social Science，CSS) 蓬勃发展，研究人员利用观察数据、实验设计和大规模仿真 (large-scale simulation) 发表了海量论文，这在之前是难以想象的。这些研究极大地提高了人们对社会不平等、传染病传播等重要社会现象的认知。学院中支持计算社会科学的机构也大幅增加，全球范围内跨学科、跨数据源的会议，研讨会，与暑期学校数量激增。但在一些重要方面计算社会科学尚有一些不足，许多制度性结构仍处于萌芽状态，包括研究伦理、教学法以及数据基础设施等方面。我们提出了解决这些不足的方法，特别针对增强大学组织与该领域的智力需求之间的协调性。

我们将计算社会科学定义为对复杂的、通常是大规模人类行为 (有时是仿真的) 数据计算方法的开发和应用[1]。该领域的知识前身包括对空间数据、社交网络、以及人类对文本与图像编程的研究。传统定量社会科学横向研究案例、纵向研究变量，且通常假设观察值之间具有独立性，而计算社会科学关注的则涵盖了语言、位置与运动、网络、图像以及视频多种内容，并应用统计模型来获取数据中的多重依赖性。一个由社会科学家、计算机科学家、统计物理学家和其他领域的研究人员组成的松散的智力群体可以在计算社会科学这一领域联合起来。

高校的失调

一般来讲，多数大学在跨学科工作方面的激励机制和结构都缺乏统一性。计算社会科学的学科训练大多是孤立的，将计算科学融入社会科学与将社会科学融入计算科学的进展一直十分缓慢，例如：训练社会科学家学习如何编程，计算机科学家研究设计这些方向。跨学科合作往往得不到鼓励，甚至遭遇重重阻碍。计算研究人员和社会科学家通常在大学不同位置的不同单位工作，几乎没有相关机制将他们连结在一起。分散的编制模式，不利于各单位之间的协作，常常导致低效的重复。

科研评估工作，如分配研究资金的英国“研究卓越框架” (Research Excellence Framework) ，通常也都侧重于单一学科内部，这就意味着多学科研究可能得不到认可和奖励。同样地，大学晋升制度也并不重视多学科学者。大学里的计算研究基础设施往往不能很好地支持大规模以及敏感数据集的分析，这些工作对数据安全性、大量研究人员访问以及计算能力都有要求。这些问题在学术界已经得到了一定程度上的解决（例如基因组数据的使用），但在计算社会科学领域中，相关解决办法仍未付诸实践。

不适当的数据共享范式

当前计算社会科学中用于共享大规模敏感数据的模式是一个“混合包“，在与政府合作的基础上相关研究取得了很好的成果，特别是在经济学领域下，分析不平等现象[2]以及劳动力市场的动态[3]。目前已经出现了一些新兴的、资源丰富的行政数据研究平台，可以在保护隐私的前提下，分析微观层面数据[4]。这些为计算社会科学与私营公司的潜在合作，提供了重要的经验支持，包括制定一个既能保证敏感数据的安全、又能将其用于分析研究的方案。(例如，差异性隐私方面的创新）。

然而，私营企业的价值取向与政府不同，我们可以料想到，相关的研究进展会更少。政府机构手中的数据是为公众托管的，而企业持有的数据通常被视为重要的专利资产。对政府机构的利益相关者而言，共享数据所固有的公共责任可能被视为一种积极因素，但对私营企业的股东来说，情况就并非如此了。这样一来，研究人员从私营企业获得研究数据的可能性不大。即使能够拿到数据，通常也是利用一个拼凑而成的系统，该系统中某些数据是通过公共应用程序接口 (APIs) 获取的；或者通过研究人员在与有关企业的合作过程中获得，这种情况下往往需要在该企业工作；还有一些是通过个人关系与一次性安排获得。一般而言这些数据受到保密协议的约束、且可能存在潜在的利益冲突。研究人员获取数据的另一种选择是，购买专门为市场研究收集的专利数据 (如Comscore、Nielsen等) ，这种方法有时并不公开透明，且其定价之高也令人望而却步。

虽然这种方法看起来很实用，但我们认为它将不再是计算社会科学领域获取数据的主流途径。在研究领域的起步阶段，这些数据看起来包罗万象，实际可用的资源却非常有限。而经由这种方法获取的数据的可得性和可及性，也是我们的担忧。

首先，许多企业在持续减少可从其平台抓取的数据[5]。这样做有时是有充分理由的，例如：监管法规（欧盟通用数据保护法规 (GDPR)）、公司丑闻 (Cambridge Analytica and Facebook) 等，但这样带来的不利影响，就是阻塞了有潜在价值的研究途径。私人与研究人员之间的合作是完全自愿的，这样数据的可获得性很容易受到私人的任意性和不可预测变化的影响，使得这种获取数据的方法在本质上并不可靠，还会导致科学研究存在潜在偏差。

其次，消费品和平台生成的数据，并不完全适用于科学研究[6]。在线平台的用户和服务未必能代表普通民众，且他们的行为也可能存在未知的偏差。因为平台从未被设计用来回答研究问题，所以可能没有收集到与研究最相关的数据（例如对信息扩散感兴趣的研究人员会统计转发的内容），或者数据收集会被系统中其他因素所混淆（例如：关于用户喜好的推断会被公司排名和推荐算法所影响）。

平台的设计、功能、数据记录和数据访问策略随时可能变化，而平台所有者没有理由为了研究者的利益而保持工具的一致性。由此，基于此类“已发现”数据做出的研究难以避免地会受到数据内部与外部有效性的干扰。特别是基于平台的数据，可能会随着平台的变化而迅速贬值[7]。而且，出于隐私和知识产权方面的考量，研究团体往往无法获得原始数据，或者在未来可能无法获得，这就妨碍了研究结果的可重复性与复制性。

不足的研究规范

最后，我们目前仍未能制定出相关科研方面的“行规”。

尽管之前就曾呼吁制定此类指导，且研究中已出现重大失误，破坏了公众的信任，但计算社会科学领域始终未能充分阐明收集和分析人的数字数据的明确原则和机制，以及如何最大限度地减少对人伤害的可能性。极少有大学提供技术、法律法规或道德方面的指导来适当控制和管理敏感数据，机构审查委员会仍没有普遍适应和一致应对由数字追踪数据的带来的独特伦理挑战。最近美国修改的关于研究对象为“人”的课题 (human subjects research) 伦理的共同规则 (Common Rule)，也并没有完全解决这些问题。

例如，网络世界里，我们分享个人信息的同时，其实也提供了与自己有相关联系的人的信息，我们该如何处理这一问题呢？围绕 “同意”的挑战，凸显了管理敏感数据安全，与重塑机构审查程序和道德规范的重要性。然而，很少有大学会整合基础设施和监督程序，来最大限度地降低安全漏洞的风险。

剑桥分析公司以及其他类似的事件，引发了一场围绕数据主权的激烈讨论。隐私权倡导者和企业之间的战线已经拉开，前者试图尽量减少对所有个人数据的收集和分析，而后者则想要以向消费者提供价值为基础，来证明其数据收集策略的合理性。

在公开讨论中，往往缺少对相关政策的呼吁，这些政策鼓励或授权对私人数据以符合伦理道德的方式来使用，以维护包括隐私、自主、安全、人类尊严、正义与权力制衡在内的公共价值，进而实现重要的公共目标，如预测疾病传播、关注社会公平与机会以及经济崩溃等。此外，对学术界基础设施的投资也是缺位的。这些投资可以推动知识生产并维护个人隐私。

建议

对于上述问题，我们提出了五个方面的建议。

加强协作

尽管存在上述局限性，由私人企业收集的数据仍非常重要且价格不菲，无法通过任何其他方式获取，且这些数据过于普遍，难以为公众所用，也难以用于公共资助的研究[8]。与其回避与产业界的合作，研究社群应该围绕研究伦理、透明度、研究者自主权、与研究结果可复制性，制定可执行的行业指导方针。我们预计，未来几年将出现许多对利益相关方具有激励作用的方法。最广泛持久的模型是开放的、汇总的数据，如人口普查数据。这种模型是为共享政府数据而开发的，强调安全和隐私，也为与企业数据合作提供了前景。联合国可持续发展目标 (United Nations Sustainable Development Goals) 呼吁在公共-私人数据源方面建立伙伴关系，以在全世界范围内提供各种新颖多样的逐个邻域措施[9]。世界各个地方的国家统计局，都在默默地为达成这种关系作出努力，但由于资金缺乏，进展较为缓慢。安全的行政数据中心的发展，再加上授予访问权、监测产出和强制要求遵守隐私和道德规则的行政基础设施，都为计算社会科学向前发展提供了一种模式。如上所述，这一模式已经在政府行政数据领域得到证明。在少数情况下，电信公司和银行也已经证明。

类似的模式在学术研究中很少见，但正变得越来越普遍。荷兰的社会科学和经济创新开放数据基础设施就是一个例子。Facebook已通过多种模式与学术界进行合作。在最初的几年中，它着重于一次性合作，主要是通过非正式协商。2016年大选后，Facebook启动了Social Science One来提供可访问的新闻消费的汇总数据。尽管资源充足，但在数据提供方面仍面临着挑战[10]。

2019年新型冠状病毒 (COVID-19) 在建立研究人员和企业之间的伙伴关系方面发挥了特殊作用，这有助于我们了解疾病的发展轨迹。(包括美国在内的许多国家，COVID-19也说明了关于该疾病的许多公共数据存在断裂性和政治偶然性。) Twitter已为获得批准的研究人员提供了有关COVID-19的API接口，Cuebiq等位置数据公司，也提供了对匿名移动数据的访问权限。在COVID-19被载入史册之后，有一些问题仍悬而未决，例如：这些数据收集工作将在何种程度上继续进行，以及如果继续如何使它们与学术界的关键研究规范（如：透明度、可再生产性、复制性和同意性）保持一致等。（详见：Nature最新：人口流动可预测疫情传播，并揭示我国确诊数据真实可靠）

与Facebook相关的大选实例凸显了研究人员与企业之间潜在的对抗性作用。当代计算社会科学领域的一个核心问题 (如下所述) 是特定的社会技术系统，以何种方式，在社会中发挥积极和消极的作用。如果企业认为透明地研究和预测这些问题符合自己的长远利益，那么研究人员与企业之间紧张的对抗关系可能会得到部分（但不完全）地缓解。然而，即使在最乐观的情况下，研究产生的见解中的公众利益与企业利益之间也将存在分歧。

从更广泛的角度而言，学术界需要为专业实践提供精心制定的指导方针。企业对研究过程能有什么控制权？显然，企业对论文内容拥有否决权显然是不可接受的，但任何数据共享协议的现实是，研究人员与企业之间有协商的调查领域。还有很多问题，诸如被提供用于复制的数据有哪些要求、研究人员对访问公司内部数据管理和策划流程的需求是什么等等。

完善新型数据基础设施

为了支持对社会具有重要挑战的科学研究，保护隐私的共享数据基础设施，可以在不同人群中，收集具有科学动机的数字踪迹，也可以让大量个体参与到大型虚拟实验室的设计实验中。共享数据基础设施建设可以贡献他们的数据与时间来支持公共利益，也可以明确的补偿或奖励来驱动。新型数据基础设施应使用最先进的安全技术，并需根据数据的敏感度制定不同等级的安全措施清单。这些努力需要在大学内与跨大学两个层次进行。基础设施应获取并记录描述数据收集过程的元数据，并结合合理的原则进行数据收集和使用。莱布尼茨社会科学研究所的安全数据中心，就是一个用于敏感数据研究的共享基础设施的例子。此外，抓取主要平台上的算法驱动行为，是很重要的[11, 12]。其一是因为算法行为愈发重要，其二因为在基于平台的数据收集中，算法的变化会产生巨大的伪像。还有一点至关重要的，即法律框架应允许并授权以合乎道德的方式来获取和收集有关个人数据，并对平台进行严格审查。

注重伦理、法律与社会影响

我们需要制定与21世纪新出现的科学机遇与风险相适应的伦理框架。社会科学可以帮助我们理解社会的结构性不平等，计算社会科学则需要打开数据驱动算法的 “黑匣子”。这些算法做出过很多影响重大的决策，但也会带有偏见。人类基因组计划投入超过3亿美元，作为其“伦理、法律和社会影响”计划的一部分，“以确保社会学会只以有益的方式使用信息”。在伦理研究方面，尚未有现成的解决方案。专业协会需要致力于制定新的道德准则——互联网研究人员协会制定的准则，就是努力解决这一问题的一个例子。同时还需要公共出资和私人基金会的大量投资，来开发针对研究人员的知情监管框架和伦理道德指导，这些也将指导政府和组织在这一领域的实践。

重组大学组织结构

从天文学到人类学，计算科学与越来越多的领域紧密相连。为了反映上述学科特征，需要在典型的“孤岛式“大学中进行机制创新，建立连接不同领域研究人员的组织结构，奖励跨学科的专业合作。机构创新的成功范例包括任命具有多部门隶属关系的教职员工（例如：横跨计算机科学与社会科学）、配置由不同领域的教员组成的研究中心以及分配内部资金来支持多学科合作。为了培育新一代科学家，还需重新构思与协调本科生与研究生的课程发展。在大学内部必须要有广泛的努力来授权和执行伦理研究实践，如：集中协调的、安全的数据基础设置。

解决实际问题

上述建议需要从公共与私人来源获得资源，按照目前的社会科学资助标准，这些资源都是非同寻常的。为了证明如此巨大的投资是合理的，计算社会科学家必须证明其研究结果，将不仅仅是发表让其他研究人员感兴趣的期刊文章，而是要阐明学术、产业和政府的合作以及与专门的科学基础设施如何结合起来，以及研究将如何解决重要的社会问题，如：保护个人人身安全、提高国家安全、促进经济繁荣、培养社会包容性、多样性、公平性和获取性、增强民主等等。目前在全球应对大型流行疾病的过程中，计算社会科学呈现出自身广阔的发展潜力。除了在学术界之外产生有意义的成果外，追求这一目标还可能带来更多可复制、累积且连贯的科学[15]。

参考文献：

[1] D. Lazer et al., Science 323, 721 (2009).

[2] R.Chetty,N.Hendren,P.Kline,E.Saez,Q.J.Econ.129, 1553 (2014).

[3] J. J. Abowd, J. Haltiwanger, J. Lane, Am. Econ. Rev. 94, 224 (2004).

[4] A.Reamer,J.Lane,ARoadmaptoaNationwideData Infrastructure for Evidence-Based Policymaking (2018); abs/10.1177/0002716217740116.

[5] D.Freelon,Polit.Commun.35,665(2018).

[6] M.J.Salganik,BitbyBit:SocialResearchintheDigital Age (Princeton Univ. Press, 2017).

[7] K.Munger,Soc.MediaSoc5,205630511985929(2019).

[8] Social Science Research Council, To Secure Knowledge: Social Science Partnerships for the Common Good (2018);

[9] IEAG,UN,“AWorldthatCounts—MobilisingtheData Revolution for Sustainable Development.” Independent Expert Advisory Group on a Data Revolution for Sustainable Development (2014).

[10] G.King,N.Persily,“ANewModelforIndustry-Academic Partnerships” (Working Paper, 2018);

[11] A.Hannáketal.,inProceedingsofthe22nd International Conference on World Wide Web (ACM Press, New York, 2013), pp. 527–538.

[12] I.Rahwanetal.,Nature568,477(2019).

[13] Z.Obermeyer,B.Powers,C.Vogeli,S.Mullainathan, Science 366, 447 (2019).

[14] J. E. McEwen et al., Annu. Rev. Genomics Hum. Genet. 15, 481 (2014).

[15] D.J.Watts,Nat.Hum.Behav.1,0015(2017).

相关资料：

作者：D. Lazer等

译者：苟泽鹏

审校：吴雨桐

编辑：邓一雪

话题：