阅读:0
听报道
导语
自从休谟喊出“因果是人类的错觉”,科学家就再也停不下对因果关系的探寻。本文尝试整理近年来关于因果推断的代表性研究,梳理出几个典型的探索方向。如果你想进一步交流讨论其中的论文,请点击阅读原文,报名参与集智的线上论文解读活动。
在现代科学到来之前,人们从经验出发,通过归纳获得知识。归纳方法受限于观测,无法产生突破性成果。而现代科学则是先从事实归纳出假设、模型,再根据数据去验证模型是否正确。而所谓的模型,则是对因果关系的一组假设。现代科学的方法论,追根究底就归结于到因果关系的判定。
2002 年,加州大学伯克利分校教授亨利·布雷迪撰文整理了因果推断的各种经典理论,并根据不同假设,将其整理为:新休谟理论、反事实理论、操控实验理论、机制理论这4类,自然科学和社会科学中许多针对因果关系的检测方法,都可以归于其中。
论文题目:
Models of Causal Inference: Going Beyond the Neyman-Rubin-Holland Theory
论文地址:
http://www-personal.umich.edu/~wmebane/midx2003.pdf
而从计算视角,近年来还兴起了利用“柯尔莫哥洛夫复杂度”和“压缩感知”的新方法。
本文从这几个角度出发,简要梳理近年来关于因果关系检测,特别是复杂系统中因果检测的代表性研究。
1. 休谟之问:如何证明是因果关系而非相关关系
哲学家大卫·休谟最早深刻思考“因果关系”:人们所谓的因果,实质上是对“相关关系”的归纳推理,而相关性无法保证因果性。休谟有言——“因果关系”是我们的错觉。
之后,以恩斯特·马赫、伯特兰·罗素等人为代表的物理学家和数学家,改造了休谟的理论,提出了新休谟式(New Humean)的框架——X如果是Y的原因,那么X的出现,应该是Y出现的充分条件。
这一类的典型研究是 2012 年 Science 刊载的一篇针对复杂生态系统中因果关系检测的论文。文中提出了收敛交叉映射算法,综合考虑 X 推出 Y、从 Y 倒推 X,来判断其因果关系,效果良好。这类方法所量化的,不是变量 X 和变量 Y 之间因果关系的强弱,而是它们之间存在因果关系的可能性。
论文题目:
Detecting Causality in Complex Ecosystems
论文地址:
https://science.sciencemag.org/content/338/6106/496
另一个典型的方法,是2019 年 11月 的 Science Advances 一篇论文中提出的 PCMCI 算法。复杂系统中存在大量非线性相互关系,因果作用有较长时间滞后,并且要素之间只在部分情况下会出现因果关系。针对这些特点,这套算法,既考虑到“错误检出因果关系”,也考虑到“未检出因果关系”,因而模型具有更强的检测能力。
上图展示了该方法在全球气象数据中的应用。图中的每个圆圈代表的某个地区的气候系统,图片下方的颜色深浅代表了因果性/相关性的强弱。左图展示了不同地区之间的相关关系,右图是 PCMCI 算法从相关关系中检测出的因果关系。可以发现,因果箭头远远少于相关箭头,且相关性的强弱不等于因果性的强弱,这说明了 PCMCI 算法能够从复杂系统内的众多关系中,找出真正的因果关系。
论文题目:
Detecting and quantifying causal associations in large nonlinear time series datasets
论文地址:
https://advances.sciencemag.org/content/5/11/eaau4996
2. 反事实——思想实验中的因果推断
如果X没有发生,那么是不是Y就一定不会发生?这样假设事件没有发生的思想实验,就是反事实型(count factual)的因果关系检测。
哲学家大卫·刘易斯,完善了反事实条件语句,把反事实因果推断的方法推向正轨。这套方法的优点,在于其能够通过思想实验,来探讨因果关系,而不需要真实场景。
英国历史学家尼尔·弗格森写《虚拟的历史》这本书,探讨如果历史上的大事件究竟是偶然还是必然。书中是假设在某个关键节点上,某件事并没有发生,历史的演化会是怎样。这就是反事实的思想实验方法。
中文屋的思想实验,则是美国哲学家约翰·希尔勒提出另一案例。假设一个不懂中文的人,藏在屋里,Ta能够通过执行某个关于“如何进行中文对话”的规则系统,骗过人们,让人们误以为Ta理解中文。如果你不认为中文屋里的Ta理解中文,就会形成反事实,从而反驳了图灵测试中的因果假设——因为电脑可以模拟人脑的某些特定功能,所以可以认为电脑具有人类的智能。
3. 操控实验——如何用实验分析因果关系
随机双盲实验,是医学界最常用的因果检测方法,常用语药物效果检测。通过将人群随机分为两组,使两组在各种评价指标上都尽可能相似,而唯一不同的是待考察的原因,进而根据两组之间的区别判定因果关系。
互联网公司做的AB测试,也是通过给不同组的用户展示不同样式的网页,来判定不同的网页设计、文章标题等因素和点击率之间的因果关系。
现实中还有很多场景无法进行随机双盲实验,但可以通过观察,看到不同行为产生不同的影响。美国统计学家唐纳德·鲁宾,提出了“虚拟事实模型”,通过计算来检测因果关系——根据观察结果,用算法模拟进行双盲实验,看会得到怎样的因果联系。
专注因果推断研究的学者朱迪亚·珀尔则质疑鲁宾的虚拟事实模型,他认为自己的因子图模型(casual diagram)更清晰。但数学家已经证明,珀尔的模型其实是和鲁宾的模型是等价的,只是表达形式不同。
4. 发现机制——从原因怎样一步步推到结果
因果关系,无论怎样研究,都绕不改因素之间内部的作用机制。找到了一条从原因到结果的影响机理,才能真正判断因果关系。
比如针对“吸烟是肺癌的原因吗”这个大问题,一方面,研究者会考察被试人员在吸烟后,肺部组织会发生怎样的变化,这些变化又是如何导致癌细胞更容易出现的。另一方面,研究者提取出香烟中的尼古丁,再通过体外实验,最终确定烟草中的尼古丁致癌。类似的研究思路,也被应用在寻找基因变异和疾病之间的关系上。
2019 年初,新刊 Nature Machine Intelligence 的一篇论文,提出一套通用的、无监督且无参数的算法,能够通过反卷积操作提取模型、进行因果聚类,在对元胞自动机数据和图网络数据的处理中,都性能良好。这在机器学习传统统计方法之外,探索了如何教会机器理解因果关系。
论文题目:
Causal deconvolution by algorithmic generative models
论文地址:
https://www.nature.com/articles/s42256-018-0005-0
计算理论的思想,近年来也被引入了因果关系研究中。2019 年 10 月发在 arxiv.org 的一篇预印本是这类研究的典型,研究者基于条件概率下的 Kolmogorov 复杂度不同,推导变量之间的因果关系。
论文题目:
Causal Inference via Conditional Kolmogorov Complexity using MDL Binning
论文地址:
https://arxiv.org/abs/1911.00332
5. 压缩感知——因果关系推断新方向
利用压缩感知方法,研究因果关系,是新兴的一个研究方向。压缩感知又称压缩采样或稀疏采样,是信号处理领域的概念,指通过采用更少的信息、来尽可能逼真地重现原始数据中的模式。经过压缩,噪音和非必要信息被过滤,数据中的因果关系能够更容易被找到。
根据基因与环境的相互作用数据,找到影响人身高的基因突变位点,该方法能够找到70%-100%的之前传统方法(全基因组关联分析)找到和身高相关的位点,通过改变L1正则项的权重(压缩的比例),还能够在寻找相关位点的的过程中,发现能找到的位点数目突然增多(相变现象)。
论文题目:
Applying compressed sensing to genome-wide association studies
论文地址:
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4078394/
对于时间序列的数据,可以采用网络重构的方法找到因果关系,而重构网络的过程,本质上是对信息的压缩过滤。在 2014 年发表于 Nature Communications 一篇论文中,研究者基于传染病传播的时间序列数据,使用相对较少数据,且在部分节点无法获取数据的条件下,用重构后的网络,去除数据中的噪声,找出了传播源。
论文题目:
Reconstructing propagation networks with natural diversity and identifying hidden sources
论文地址:
https://www.nature.com/articles/ncomms5323#Sec1
找到因果关系,对于构建可解释的机器学习模型至关重要。要解释模型的决策,模型要能回答反事实的what if型问题,这需要机器能构建因果关系模型。
2019 年 10 月发表在 Physical Review Letters 的一项研究,借助压缩感知,同时参考了人脑认知设计神经网络架构,让机器学到了天体运行背后的因果规律。
研究者设计了两个神经网络,一个发现规律(用更少的神经元表征数据中的规律),一个解释规律(找到因果模型),在没有进行任何初始假设的前提下,根据太阳系行星的运动轨迹的数据,通过压缩感知,发现了天体之间的关系——地球绕着太阳转。
论文题目:
Discovering physical concepts with neural networks
论文地址:
https://journals.aps.org/prl/accepted/9e07eY09T2e1fd7f88ae46166090ef41fa6ad4c34
因果推断的具体方法,有很多种,然追根溯源,都可以追溯到某一种朴素的假设上。这篇文章整理了对因果推断方法近年来的一些代表性研究,希望帮你建立对因果推断研究的粗略认识。
如果你对本文涉及到的某些论文感兴趣、希望进一步学习,或者你研读过其中的某些论文、希望讲给需要的同学听,请点击页面底部的“阅读原文”,参与集智斑图网站的线上论文解读活动。
作者:郭瑞东、刘培源
编辑:张爽
话题:
0
推荐
财新博客版权声明:财新博客所发布文章及图片之版权属博主本人及/或相关权利人所有,未经博主及/或相关权利人单独授权,任何网站、平面媒体不得予以转载。财新网对相关媒体的网站信息内容转载授权并不包括财新博客的文章及图片。博客文章均为作者个人观点,不代表财新网的立场和观点。