复杂系统自动建模综述：描述、预测与理论发现-集智俱乐部的财新博客-财新网

导语

复杂系统在我们日常生活中无处不在，但无论是对复杂系统的刻画描述，还是对复杂系统进行有效的预测，以及科学理论发现，都是一项巨大的挑战。本文总结了张江老师在集智-凯风读书会上的《复杂系统自动建模》专题，介绍了如何更好地利用AI来对复杂系统更好的进行描述、预测乃至于理论发现，最后，本文还对通过AI对复杂系统进行自动建模中的一些可能的问题进行了简单的描述和讨论。

扫码查看复杂系统自动建模的论文资料整理

为什么要利用AI探索复杂系统

传统模式下对复杂系统进行建模

许多相互作用的元素可以组成复杂系统，如互联网、经济系统、公共部门和行政组织、城市、生命体、大脑、电网、交通、生态系统等等，复杂系统存在于我们生活的各个领域。

各式复杂系统往往可以被抽象为一组单元，它们通过一个网络相连，并按照一定的动力学法则发生相互作用。然而，由于复杂系统中的元素、主体数量较多，系统组成元素之间以及系统和环境之间存在依赖、竞争、关联等复杂的作用，便产生了如非线性、涌现、自发秩序、适应性以及反馈回路等的特殊性质，导致互动模式与影响难以描述，参数数量的增加有可能快于系统大小的增加，我们既无法把整个系统基于还原论而简单理解为个体的加总，也无法从整体的行为有效推断出系统的确定性质。

所以，我们对复杂系统的建模是极其困难的。

19世纪、20世纪特别是20世纪80年代以来，复杂科学、网络科学的不断发展使得我们可以从更多角度去认识、研究、刻画和预测复杂现象。比如对于城市这一复杂系统的演化增长，虽然我们不期待用一张餐巾纸写下城市的生长方程，但我们绝对可以用一页纸写下所有的规则：

空间吸引规则：城市中某一地点对新加入个体（以二维平面上的节点为代表）的吸引力正比于其自然禀赋与社会吸引（在模型中我们用当地的活跃人口密度来表示）之和；

匹配生长规则：如果新加入系统的节点（代表活跃社区）离现有城市人口过远，那么它就无法持续存在（见下图a）；

道路生长规则：道路网络的密度由人口密度决定。最简单的路网构建原则就是依最简单的泰森多边形划分进行路网构建（如下图c）；

社会互动规则：市民的互动是沿着城市的界面——街道展开的，因此互动的密度等于人口密度和路网密度的乘积。同时我们假设这些活动创造了城市的经济价值和创新（见下图b）。

图1：复杂的城市，简单的规则

Li, R., Dong, L., Zhang, J., Wang, X., Wang, W. X., & Di, Z & Stanley, H. E. (2017). Simple spatial scaling rules behind complex cities. Nature Communications, 8(1), 1841. 下载地址：。

我们的另一项工作是对新冠疫情在城市间的传播防控进行建模。疫情期间我们成立了集智疫情小组，尝试通过对疫情传播进行建模分析从而得到一些可以帮助防控疫情的知识。对于疾病传播，我们将城市作为节点，城市感染人数作为节点的特征，根据城市间的人口迁移数据建立整个网络，通过数据驱动的方式对Meta-population model中的参数进行学习。虽然我们这项研究运用了AI，但我们只是利用其学习模型中的参数，模型本身的构建仍旧依赖科学家对复杂系统的洞见。

图2：新冠疫情在城市间的传播

Jiang Zhang, Lei Dong, Yanbo al.. Investigating time, strength, and duration of measures in controlling the spread of COVID-19 using a networked meta-population model. Nonlinear Dynamics, 2020

可以看到，复杂科学和网络科学的不断发展使得我们有生命游戏、Boid模型、SIR病毒传播模型、偏好依附网络增长模型、匹配生长模型、人工股市模型等等可以用来对一些复杂系统进行较好的描述、刻画和行为预测，这些简洁、富有洞察力、便于理论发现分析且计算廉价的模型大大加深了我们对复杂系统的认识；然而依靠人工构建模型面临着很多缺点：

过于简单，以至于很难解释更多的复杂现象

很难与观测数据融合

预测精度较低

依赖于人类建模者的启发性思考

建模没有统一的规则

利用AI对复杂系统进行自动建模

2007年1月28日，图灵奖得主吉姆·格雷 (Jim Gray) 在自己酷爱的航海运动中驾驶帆船失踪于茫茫大海之上。短短17天之前，他在加州山景城召开的NRC-CSTB（National Research Council-Computer Science and Telecommunications Board）上，发表了他的著名演讲：The Fourth Paradigm: Data-Intensive Scientific Discovery (《第四范式：数据密集型科学发现》)。演讲中，他将人类科学发展分为四种范式：以记录和描述自然现象为主的“实验科学”，即第一范式；利用模型归纳总结过去记录的现象的“理论科学”，即第二范式；科学计算机的出现带来的模拟仿真等“计算科学”，即第三范式；如今大数据时代的到来，出现新的科学研究方式，即数据密集型科学（Data-Intensive Scientific Discovery），称为第四范式。

图3：科学的四种研究范式

米加宁,章昌平,李大宇 & 林涛.(2018).第四研究范式:大数据驱动的社会科学研究转型. 学海(02),11-27. doi:10.16091/j.cnki.cn32-1308/c.2018.02.003.

而第四范式与第三范式最显著的区别，在于第三范式是先提出可能的理论，再搜集数据，然后通过计算仿真进行理论验证。而第四范式是先有了大量的已知数据，然后通过计算得出之前未知的可信的理论。显然，第四范式的核心，在于一种新的认知途径：寻找“产生于数据”（born from the data）中的洞见。而大数据的特点是连续产生的数据，并力求在范围上穷举和在内容上精细，同时数据产出上又是弹性灵活、大小可变的。我们认识到，随着大数据的积累和人工智能的不断发展，特别是深度学习技术的发展，使得我们可以通过数据驱动（data-driven science）的方式，利用深度学习算法来自动构建复杂系统的模型，我们拥有了更加强力的工具来对复杂系统进行更加精确、深入的分析、模拟、预测，甚至科学发现。

可参考：Rob Kitchin: Big Data, New Epistemologies and Paradigm Shifts, Big Data & Society, vol. 1 no. 1, 2014, pp. 1–12.

显然，利用AI自动建模较传统人工建模（基于第二、第三范式）有显著的区别，自动建模寻求“产生于数据”而不是“产生于理论”的假设和洞见，即先有一个从数据中以归纳的方式来形成某种假设，然后再用演绎的方式进行研究。这种数据获取和分析的决策思路，建立在溯因推理 (abductive reasoning) 之上。这种范式更加适用于提炼传统“知识驱动的科学”难以提炼的额外的、有价值的洞见。

其次，随着技术的发展，我们已经积累了关于复杂系统运转的大量数据，特别是系统所产生的时间序列数据，而传统人工建模方法很难与这种结构的数据相结合，换言之，传统建模方法难以提取数据中隐藏的大量信息、知识。不过，AI中的一些算法却非常擅长于从时间序列数据等中学习提取模型，同时，当前的硬件已经能够支持我们借助一些深度学习的算法对较大量级的数据进行学习分析。

因此，我们便有可能在AI的帮助下完成对复杂系统的自动建模，使得我们不仅仅能够对模型参数进行学习计算，更重要的是利用AI自动对模型本身进行学习构建，最终实现对复杂系统的描述、预测和科学发现。

AI自动建模的五个阶段

AI自动建模，简单来说就是根据获取到的复杂系统的观测数据，利用 AI 系统，自动去构建出一个我们想要的模型，从而捕获到复杂系统内部的规则。这样，我们就能够对真实的复杂系统进行描述刻画，进而做出分析预测，完成科学发现，最终实现对复杂系统的调控和构造。

图4：AI自动建模的流程

我们大体按照发展顺序，将这一领域分成了如下五个阶段（方面）：

图5：AI自动建模五部曲

我们将简要介绍各个阶段的代表性案例，同时结合我的一些相关研究进行展示。

阶段1：对复杂系统的长程关联自动建模——RNN

复杂系统的行为数据大多表现为时间序列，而RNN是时间序列预测的主要工具，因此用RNN来自动建模是一个主力方向。使用RNN进行建模，其记忆机制可以捕捉到复杂系统的长程关联。

基于 RNN 的方法有非常多，这里我们展示一个跟复杂系统相关的工作。

库计算:Model-Free Prediction of Large Spatiotemporally Chaotic Systems from Data: A Reservoir Computing ApproachJaideep Pathak,Brian Hunt,Michelle al.physical review letters（2018）

在这个工作中，用 RNN 的一种变种模型“库计算”（reservoir computing），具有强大的预测能力，甚至可以预测混沌模型。而库计算和一般的RNN最大的区别在于它具有一个不可学习的核心部件：水库（图中的R）。水库本质上是一个高度稀疏的随机网络，信号经过编码后进入水库进行传递，而整个过程是不可学习的。在这个过程中，水库起到记忆的作用，经过若干次迭代，信号的输入和输出过程通过梯度算法进行学习调整。最后，这个模型对于混沌的预测，却可以得到一个比LSTM等完全梯度反向传播的RNN更好的效果，而库计算的核心部件水库由于是一种固定结构，我们甚至可以用一些物理上的硬件来实现它。

图6：库计算（reservoir computing）

阶段2：对复杂系统的动力学和控制自动建模——GNN

图7：第三代神经网络——图神经网络

在时间序列自动学习方面，图网络不仅很好地学习了动力学，而且还能够在学好的动力学上做控制。如果在神经网络中对图网络进行划分，可以认为它是第三代的神经网络。我们知道，第一代的神经网络是常见的前馈神经网络（Feed Forward Network），而第二代的神经网络则是根据问题进行构造的深度神经网络。如在图像识别中，由于图片结构上的平移不变性、旋转对称等，我们通过kernel在图片上平移，通过卷积的方式来提取特征，由此设计了CNN。而kernel无论移动到图片的哪一个位置，其内部的结构都是一样的，因此CNN可以实现参数共享。又如在自然语言中，根据其一维结构的序列特性，通过各种门的操作从而使得序列前后的信息互相影响以更好捕捉序列的特征，由此设计了RNN。而第三代神经网络，则可以理解为对上述情况的一种泛化，CNN无非是一种固定的若干维的网络结构，而如果将其泛化到一般性的网络结构，去掉空间上的约束，这时便构成了图神经网络。

图神经网络最初由 Franco Scarselli 和 Marco Gori 等人提出，在之后的十几年里被不断扩展，先后发展出了图卷积网络（Graph Convolution Networks，GCN）、图注意力网络（Graph Attention Networks）、图自编码器（ Graph Autoencoders）、图生成网络（Graph Generative Networks）和图时空网络（Graph Spatial-temporal Networks）等多个子领域。

图网络的基本理念是构造一种可学习的图上的传播过程，通过给机器展示一张固定的图，这被称为基于关系的偏置先验（inductive bias），学习一种网络节点到连边，连边到节点的映射过程。

图8：图网络动力学预测原理

由于模型将图结构充分利用，能够把握非常异质化的网络，因此准确度可以大大高。而图上构建传播扩散的过程即为不同节点之间传播过程中的多次迭代，通过反向传播算法多次对连边传播扩散过程中的参数进行调整。

下面这篇文章是彩云天气算法工程师和我们的一项工作，我们将图网络应用于雾霾预测，并结合气象领域知识，构建城市间的相互作用网络模型，对预测雾霾有非常好的效果。

PM2.5-GNN: A Domain Knowledge Enhanced Graph Neural Network For PM2.5 ForecastingShuo Wang,Yanran Li,Jiang al.arXiv（2020）

图卷积网络

图卷积网络（GCN）最早由Thomas Kipf提出（今年 1 月份，他从阿姆斯特丹大学机器学习专业拿到了博士学位）。

图9：Thomas Kipf在社交媒体上展示自己的博士论文

Thomas Kipf 提出了一种用深度学习处理结构化数据的新方法。该方法主要基于以图的形式结构化神经网络模型的表示和计算，从而提高模型在学习具备显式和隐式模块结构的数据时的泛化能力。

GCN的概念首次提出于ICLR2017（成文于2016年），它实际上跟CNN的作用一样，就是一个特征提取器，只不过它的对象是图数据，用于执行图结构数据中节点的半监督分类任务。GCN精妙地设计了一种从图数据中提取特征的方法，从而让我们可以使用这些特征去对图数据进行节点分类（node classification）、图分类（graph classification）、边预测（link prediction），还可以顺便得到图的嵌入表示（graph embedding）。GCN 发表时，它在多个无向图数据集的节点级分类任务中实现了 SOTA 性能。

图10：图卷积网络原理

其中H是节点向量，也即节点特征，通过一个可学习一般形式W进行线性变换，和一个的扩散算子A，再加上一个非线性sigma函数，节点特征就被迭代了一轮，而经过若干轮迭代，就可以得到整合了整个网络信息的节点表示。而这整个过程非常类似于一个归一化的拉普拉斯算子，由此完成整个图上的扩散过程。

图注意力网络

目前还有一种在表现上比GCN更加优秀的算法：图注意力网络（Graph Attention Network，GAT）。Petar Veličković（于 2019 年从剑桥大学获得计算机科学博士学位）和 Guillem Cucurull、Yoshua Bengio 等人一起完成了图注意力网络的开山之作——《Graph Attention Networks》，这篇论文被 ICLR 2018 接收。Petar Veličković现在是 DeepMind 的研究科学家。

图11：Petar Veličković在社交媒体上展示自己的博士论文

Petar Veličković的博士论文《The resurgence of structure in deep neural networks》，作者通过开发三种 structure‐infused 神经网络架构（在稀疏多模态和图结构数据上运行）和一种 structure‐informed 图神经网络学习算法来直接验证该假设，并展示了传统基线模型和算法的卓越性能。

针对GCN在看待相邻节点的影响的时候进行简单地直接对节点特征进行平权地加和，然后汇聚到节点上，得到新的特征这一做法，图注意力网络提出在传播过程引入自注意力（self-attention）机制，每个节点的隐藏状态通过注意其邻居节点来计算。GAT网络由堆叠简单的图注意力层（graph attention layer）来实现，对节点对，注意力系数计算方式如下。

图12：图注意力网络原理

节点-邻居对的计算是可并行化的，因此运算效率很高（和GCN同级别）；

可以处理不同程度的节点，并为其邻居分配相应的权重；

可以很容易地应用于归纳学习（inductive learning）问题。

与GCN类似，GAT同样是一种局部网络，无需了解整个图结构，只需知道每个节点的相邻节点即可。

基于图注意力网络进行网络重构

我们的一项工作就是运用图注意力网络进行连边预测，而连边预测并非我们想达到的最终目的，我们发现，通过连边预测的效果进行调整，实际上我们可以在未给定直接信息的基础上通过连边从而学习出每个节点更加丰富的信息。

在这里，我们只需要一个足够大的网络，通过连边预测任务实现对每个节点表征向量的学习，最后实现包括节点中心性排序、社团划分、节点分类等。一般来说，进行上述任务，比如节点分类，我们需要大量的标注数据进行训练，而很多情况下这种数据获取的成本和难度无疑比较高。但是，网络的获取却是一个难度较低的事情，我们可以很容易的收集到一个存在上千节点以上的网络，而通过我们这项工作，就有可能通过网络结构自监督的学习出每个节点的表征向量。

图13：张江老师团队关于图注意力网络的一项工作

Weiwei Gu,Fei Gao,Xiaodan al.. Link Prediction via Graph Attention Network. arXiv:1910.04807, 2019

这项工作的核心思想在于，网络结构本身即蕴含了足够丰富的信息，这便提供了一种通过对网络结构学习从而重构网络本身的可能。由此，我们首先在完整网络结构的基础上，移除比如10%部分的网络，在剩下的90%的网络中，学习整体的pattern（前提假设为网络结构本身具有空间结构平移对称性，而我们正是通过GAT来学习这种特性）：即通过前馈神经网络预测两个节点之间是否存在连边的分类器（此步骤使用的是网络结构自带的连边标签数据），在学习完成这种分类模式后，再尝试重构移除部分的网络，从而评估检测学习出来的分类模式效果，进而对每个节点的节点向量进行学习重构，最终实现对整个网络的完整构造。

图14：连边预测（DeepLinker）原理

我们把这种方法称作DeepLinker，接下来，我们用中国风险投资（VC）网络给这个算法进行训练，根据注意力中心性进行排序，最后结果和CB Insight上最好的VC排序符合的很好，排名前二十的VC重合度达到了72%。

图15：用DeepLinker预测最好的VC

同时我们还尝试依据DeepLinker得到的节点特征向量进行节点分类，在这个过程中，我们并没有将节点标签作为输入数据，而是仅仅通过连边学习来逆向重构节点特征，根据算法重构的特征进行分类，我们发现这种分类的准确度较传统的其他方法有较大优势，也能得到一个很好的结果。总结起来，Deeplinker算法是一种无监督学习的方法，且能最大化利用已知网络结构数据，但是，这个算法实际上只提取了网络结构中的信息，却能在节点排序、节点分类的问题上取得很好的结果，说明实际上网络结构本身就包含了大量信息，节点之间的连边模式包含了不同节点本身的特征，即网络结构是对网络节点信息的提取，这使得我们可以通过对网络结构进行逆向工程从而还原出网络节点的特征。

图16：用DeepLinker进行节点分类

门控注意力网络

最后，除了GAT之外，门控注意力网络（GaAN）也使用多头注意力机制。GaAN中的注意力聚合器与GAT中的注意力聚合器的区别在于，GaAN使用键值注意力和点积注意力，而GAT使用全连接层来计算注意力系数。

此外，GaAN通过计算其他soft gate为不同的注意力头分配不同的权重。该聚合器称为门控注意聚合器。即GaAN使用卷积网络，该卷积网络具有中心节点的特征，并且与之相邻以生成门值。

GaAN: Gated Attention Networks for Learning on Large and Spatiotemporal Graphs

阶段3：对复杂系统连续变化自动建模——Neural ODE

图网络主要处理的是在时间上离散的模型，而复杂系统的很多行为、变化却是连续发生的。神经常微分网络（Neural ODE）便是一种能够对连续时间进行自动建模的模型。我们认为，神经常微分网络与传统深度神经网络相比，其最大的贡献在于进一步加深了网络的深度，同时可以与归一化流（normalizing flows）在连续域的拓展相紧密结合，实现原则上无限深度的生成模型。另外，就是NeuralODE开辟了连续动力系统自动数据驱动建模的新领域。

从ResNet到Neural ODE

以往的算法直接学习的对象是函数ƒ(x)，而2015年出现的残差网络ResNet则是对每层的输入进行reference，学习残差函数ƒ(x)-x，这种残差函数更接近学习目标从而更加容易优化且加深了网络层数。类似于RNN的模型往往较难处理趋势，但擅长处理涨落（fluctuation），所以残差网络可以提升模型性能。而残差网络的迭代更新可以看做连续变化的欧拉离散化，当我们不断缩短变化的区间，在极限情况下，便成为了一个常微分方程，于是我们可以使用神经网络指定的常微分方程（ODE）来参数化隐藏单元的连续动态，并通过求解常微分方程来完成模型训练。

图17：从ResNet到Neural ODE

数值求解ODE通常通过积分来完成，在这个模型里，使用的是用 Pontryagin 的「伴随法」计算 ODE 梯度的替代方法。该方法通过求解第二个时间向后增加的 ODE，可以与所有的 ODE 积分器一起使用，并且占用较小的内存。最后，整个梯度计算算法如下：

图18：用「伴随法」计算模式求解器的梯度

由此，模型通过求解一组常微分方程，实现了对相当于无限层的整个神经网络的训练，并且，在取消分层概念后，可以自动采样插值从而使得整个函数连续化，从而取得一个很好的效果。

其他微分方程与神经网络的结合

显然，Neural ODE提供了一种新的自动建模理解方式，即它把一个机器学习的问题转化为了一个最优控制的问题，这个视角使得我们可以将控制论的很多东西迁移嫁接到AI自动建模里。即任何一个动力学预测都可以转化成对一个目标函数的优化。

Neural ODE 论文：

autograd：

而在这篇论文之后，很多人开始用物理相关理论迁移到神经网络从而提供一种不一样的方法来对动力学系统进行学习。比如哈密顿神经网络，即用哈密顿方程对动力学进行描述，这里的关键在于，对于物理系统特别是能量守恒的系统，可以通过求解哈密顿方程来给出系统演化的动力学方程，即只要知道如何构造哈密顿函数，便可以求解系统演化。而这种模型是可以推广到一切带有守恒量的系统的。然而在面对时间序列数据时，我们可能并不知道是否存在守恒量，也无法得知守恒量的形式，但是我们可以通过神经网络对其进行学习，从而找到系统的动力学模型，并找到守恒量。这里面有一个关键技术问题通过pytorch包中的grad包可以进行高阶求导。类似的还有拉格朗日神经网络等等。

图19：哈密顿神经网络

图20：拉格朗日神经网络

阶段4：对图结构与因果关系的自动建模——NRI等

基于图网络的自动模型需要将图结构作为数据进行输入，但是在很多实际问题中，特别对于复杂系统，我们无法预先获取准确的图结构数据，也不清楚系统中的相互作用结构，能够收集的往往只有关于整个系统的观测数据、时间序列数据。在这种情况下，我们需要一种能够运用观测数据从而对整个图的结构进行学习建模的算法。由于整个复杂系统是一个动力体系，它的图结构中的连边可以看做由因果关系（causal relation）转化而来，所以我们对图结构的学习重构也是对整个复杂系统内部的因果关系进行学习发现。

图21：图结构中蕴含因果信息

从注意力机制到因果关系

目前，已经有一些工作可以实现对图结构中的因果信息进行学习挖掘。比如有人认为GAT中的Attention本身，就是一种图结构。对于一类具有加权有向连边的图，以交通流预测为例，我们可以将多个地点的交通流转化时空上的多层网络，其中每一时刻为一层网络，不同流量探测器或是路段之间相互连接形成交通网络；不同时间步对应不同的层。其中模型最终学习到的空间上的注意力就是每个节点-邻居对的权重分配计算，时间上的注意力就是每个时刻与历史时刻的权重分配计算，两种机制共同帮助模型学习出连边权重，而这种情况下学习出的连边往往也具有方向。

图22：图多重注意力网络

对无权无向连边网络的重构——NRI

但是，很多网络中的连边却是无权无向的，对于这种情况，一种开创性的方法是由GCN作者Kipf提出的神经关系推断（NRI）模型，即通过将图神经网络与基于图连边类型的概率潜变量模型结合起来。首先，我们将系统历史时间序列数据输入模型，接下来将一个全连接的图网络结构输入编码器（Encoder），通过对历史数据的学习编码出一套网络结构，再将建构出来的图结构输入解码器（Decoder），生成下一时刻的预测。整体来看，NRI通过编码器-解码器架构对系统动力学进行重构，而中间的潜变量就是图网络的结构。

图23：神经关系推断网络原理

Kipf 使用 NRI 建模了相互作用的动力系统，如物理学中的多粒子系统，取得了很好的结果。但这个模型只能作用于5-10个节点，最多不超过30个节点的系统建模。而这一限制是由于编码器中需要使用一个具有全连接结构的图网络进行运算，所以一旦节点数量上升，这套模型的算力需求就会极速上升，最终导致模型无法运行。

提高网络重构能力——GGN

NRI模型复杂度高，只能用于小规模网络，我们（张江老师科研组）在NRI的基础上，提出了一种更轻便、效率更高、可用于大规模网络（100个节点左右）的网络重构方法（Gumbel Graph Network，GGN）。这里面的关键在于我们大大简化了NRI架构，将基于图网络的网络构造过程替代为一个轻量的邻接矩阵生成器。这大大简化了计算，还能够将网络重构规模扩充到数千个节点。网络生成器的关键是利用一种被称为gumbel softmax sampling的机制，将NRI中的编码器及其要求输入的全连接网络转换为一种基于Gumbel softmax技术的网路生成器和它生成的一个独立网络，这样能极大降低运算量，并且取得一个很好的结果。

图24：gumbel softmax sampling原理

A general deep learning framework for network reconstruction and dynamics learningZhang Zhang, Yi Zhao, Jing al.（2019）

在网络重构中加入因果检验

而我们最新的进展则是对上面的方法进一步进行性能提升，实现对1000个节点以上乃至于2000个节点的网络重构，而只要时间足够长，这一算法可以实现对较复杂网络的更高精度重构。这里面的关键在于引入类似于格兰杰因果检验（Granger Causality）的方法，虽然格兰杰因果检验并没有上升到因果阶梯中的干预和反事实，但从预测角度理解，它正好对应我们连边重构过程中的思想，即如果引入一个新变量可以提高我们预测的准确度，那么我们便把这个新变量作为一个格兰杰因纳入模型。

图25：格兰杰因果神经网络的原理

当然，在格兰杰因果检验中，我们直接假设因果之间符合一种线性的函数关系，但实际上复杂系统中的非线性却是无处不在的，所以我们通过神经网络特别是图神经网络便可以有效加强它的拟合能力，从而更加准确的实现对任意非线性动力学的因果联系以及动力学过程的重构和发现。这里面的一个关键便在于将图网络重构机制理解为一个Node sharing的神经网络，即类比于CNN，图网络中的kernel就是这个Node sharing结构。

图26：格兰杰因果图网络模型框架，我们最近将这一架构成功用于基因网络的重构：

Neural Gene Network Constructor: A Neural Based Model for

Reconstructing Gene Regulatory Network

动态网络的结构重构

另外，利用自注意力机制，我们也可以用于提炼动态的图结构。例如，下面这篇文章就将Transformer模型（自注意力机制）用到了各种具有动态交互图的复杂系统之中，包括鸟群Boid模型、元胞自动机的自动建模等。

图27：以鸟为例给出的模型结构

图28：模型自发学习到的视野半径

Towards Automated Statistical Physics : Data-driven Modeling of Complex Systems with Deep LearningSeungwoong Ha,Hawoong Jeong（2020）

动态图神经网络的基础和进展

阶段5：对干预和反事实的自动建模

目前，阶段4看似给我们提供了一种学习图结构和因果关系的方法，但这种结构还不能严格等同于因果，真正进行因果推断和因果发现，我们需要上升到干预甚至是反事实的阶梯。

图29：因果阶梯

在这方面，李飞飞团队有一项工作是通过AI算法干预虚拟世界或者现实世界来帮助我们攀登因果之梯。在一个虚拟世界里，我们的算法不仅能够观测其中物体的运动，同时它还可以对物体的运动实施干预，比如改变一些运动状态，碰撞其中的物体等。这便更加类似于科学家探索世界时的方式了，科学家们不仅仅观察这个世界，还会尝试设计实验以验证自己的猜想。整个过程需要通过两个网络来完成，一个网络与上述的动力学建模预测网络一致，而第二个网络的训练目标则有两个，目标1是使得残差与上面网络的残差尽量保持一致，目标2是通过对虚拟世界行动、干预使得预测误差最大化。显然，这种操作的目的就是找到算法中的反例，通过对反例的修正从而使得模型预测更加准确。这使得我们的虚拟世界实验体系和AI形成了闭环体系，通过观测拟合及干预实验使得准确率进一步提升。我们认识到，这一整个过程其实是一种强化学习，即让AI自己提出来它要学习什么，它要在哪些方面加大权重。

图30：主动干预的学习模型

Towards Curiosity-Driven Learning of Physical DynamicsMichael John Lingelbach,Damian Mrowca,Nick al.

主动干预的学习模型为我们未来的人机交互提供了一个有益的方向：在一些情况下，由AI直接提出，如果要优化模型，它需要我们做什么，它需要哪些方面的数据；由此我们针对AI的需求设计来相应的规则。这种开放的互动将使得我们的复杂系统自动建模得以登上新的台阶。

同时，还有文章声称，可以利用深度学习方法攀爬第三层阶梯，尽管是否符合真正的反事实推理还需要进一步确认：

Deep Structural Causal Models for Tractable Counterfactual InferenceNick Pawlowski, Daniel C. Castro, Ben GlckerarXiv（2020）

最后，当我们学习到了基本模型之后，还可以对系统实施控制。下面这篇文章就以模拟的智能交通系统为平台，讨论了自动学习以对系统动态控制。

Flow: A Modular Learning Framework for Autonomy in TrafficCathy Wu,Aboudy Kreidieh,Kanaad al.arXiv（29）

总结

总结来看，复杂系统的自动建模已经取得了丰硕的成绩。相比于传统的人工模型，自动建模的优势在于：

可以同时学习出网络结构和动力学

具有较高的准确度

可泛化

不强依赖于建模者的先验知识

当然相比于经典模型，它还处于刚起步的阶段，现在尚没有对如下问题进行充分讨论：

网络的演化模型

复杂适应系统模型

多尺度建模

目标驱动+数据驱动建模

……

图31：Yann LeCun在ACM FCRC 2019的演讲《深度学习革命：续集》

显然，上面这些问题指向了复杂系统的基本理论和AI的基本理论。

AI探索复杂系统的未来

逻辑分析

进入AI自动建模的第五阶段，我们认识到因果关系是必须面对的问题，它也是复杂系统科学发现的核心，当我们能够利用AI发现复杂系统中的因果关系时，便获得了一种强大的系统泛化能力，这也正是我们可以根据物理定律来理解分析世界，甚至预测一些不可能发生的事情，比如各种经典的思想实验。

在这方面，图灵奖获得者Yoshua Bengio认为我们有必要参考人类的认知系统，因为人类是能够以某种高效方式重用已拥有的知识，而当前的机器学习并不擅长知识重组。机器学习擅长的是将知识模块化为可重用的片段。其中，人类的认知系统包含两个子系统：系统1和系统2。系统1是直觉系统，主要负责快速、无意识、非语言的认知，这是目前深度学习主要做的事情；系统2是逻辑分析系统，是有意识的、带逻辑、规划、推理以及可以语言表达的系统，这是未来深度学习需要着重考虑的。

Judea Pearl认为一个足够强大的、准确的因果模型可以让我们利用第一层级（关联）的数据来回答第二层级（干预）的问题。没有因果模型，我们就不能从第一层级登上第二层级。这就是深度学习系统（只要它们只使用了第一层级的数据而没有利用因果模型）永远无法回答干预问题的原因，干预行动据其本意就是要打破机器训练的环境规则。这些都是未来深度学习需要着重考虑的。

预测

要理解AI探索复杂系统的未来，我们首先要明确作为核心评价之一的利用AI进行预测到底意味着什么。预测是智能的不可或缺的组成部分，当实际情况和预测出现差异时，实际上就是学习的过程。

然而，这个世界并不全是可预测的。同时，对于视频预测任务，结果可能是多重的，而训练系统做出唯一一种预测的结果往往会得到唯一“模糊”的结果，即所有未来结果的“平均”。这显然不是理想的预测。另外，在很多模型中，我们需要利用隐变量来处理不确定性，训练样本只是整个可能的输出集合的表示。

最后，我们如何判断预测是否正确？第一个验证方法就是和目标是否一致，另一个是求得最优。这两个场景往往对应着两条曲线，一条更精确，还有一条则敏感度更高，显然这不一定是一件事情。比如假定有一个模型，模拟出有哮喘的肺炎患者，死于肺炎的可能性较小。很明显，如果有哮喘应该死亡率高，为什么反而低了？这可能是因为有哮喘很快就会受到正常的照顾，反而容易生存。所以，数据不足将导致大部分的AI重构的模型是难以验证的。这正好应对了Judea Pearl提出的因果科学，首先，有些问题是无法回答的，同时可以回答的问题需要特定的数据，哪怕我们通过一套基于数学体系的因果运算使得我们可以通过不进行干预而得到正确的答案，这同样需要我们能够采集其中的关键数据。

图32：Pearl的因果推断引擎

计算社会科学

不论是运用数据描述或干预社会和人的行为，还是运用各种可穿戴设备采集与分析数据, 进而分析指导他人或自己的生活，都预示着计算社会或社会计算的来临。自然，我们可以利用AI来探索社会，进一步发展计算社会科学。

2009年2月6日，David Lazer、Alex Pentland为首的15位学者在Science上发表题为“计算社会科学”的观点文章，标志着这一交叉领域的诞生。时隔十年，今年8月28日，David Lazer、Alex Pentland,、Duncan Watts领衔的15位学者在Science的政策论坛专栏发表文章，反思计算社会科学领域研究的不足。

实际上，17世纪和18世纪被称为“政治算术”便是计算社会科学的一个雏形，在当时，政治算术旨在用数量分析的方法研究社会经济，1798年，人口学家马尔萨斯出版了《人口原理》第1版，该书强调了人口控制的必要性，但因为没有数据支撑而引起了激烈的争论，也促使英国政府于1801年开展了首次人口普查。有了数据的支持，该书于1803年出版的第2版论证更加详实，一时洛阳纸贵。

在20世纪晚期，人们已经尝试对各种社会现象进行建模，如研究集体选择和偏好加总的社会选择理论 (Social Choice Theory) 通过构建数理模型，研究制度如何将个人偏好加总为集体的选择。而布莱恩·阿瑟（Brain Arthur）的好友肯尼斯·阿罗（Kenneth Arrow）1951 年的博士学位论文《社会选择与个人价值》提出“不可能性定理” (Impossibility Theorem) 证明，试图找出一套不存在投票悖论的规则，一般是办不到的。即不存在同时满足下列条件的社会选择规则:

（1）序关系理性条件 (Ordering) : 所有投票者的偏好具有传递性和完备性，即所有人均理性；

（2）偏好无约束条件域 (Universal Domain) : 所有可能的偏好序除了满足传递性和完备性之外不存在任何限制条件；

（3）弱帕累托准则 (Weak Pareto Principle) : 如果所有投票者均认为甲＞乙，则最终结果也应该是甲＞乙；

（4）无关方案独立性条件 (Independence of Irrelevant Alternatives) : 该规则得出的甲和乙的排序，只取决于投票者对甲和乙的排序，与投票者对其他候选方案的偏好无关；

（5）非独裁性条件 (Non－dictatorship) : 不存在社会选择结果由某一个人决定的情况。

限于篇幅，在这里我们不深入的描述一些计算社会科学的相关研究，但AI显然能够帮助我们尝试重构一些社会系统，描述互动规则，预测某些社会现象和行动（社会运行具有不完全重复性，预测有可能会产生“俄狄浦斯效应”，所以准确预测并不是最重要的目标），更为重要的是，AI自动建模这种方法为我们提供了一种自动学习社会机制、社会制度设计的可能，未来，我们的一些政策、法律、合同、合约、各种制度可能会在AI自动建模的帮助下得以设计和优化，从而更好的达到我们期待的效果。

讲者：张江

整理：黄华津

编辑：邓一雪

话题：