网络、几何与机器学习-集智俱乐部的财新博客-财新网

文 | 傅渥成

研读营已经过去了一个多月了，但它对我的影响却至今还没有消退。这次研读营给我留下了非常美好的回忆。在研读营的报告和讨论中，我不但接触到了许多此前不太了解的方法，更重要的是我接触到了大量极具冲击性的想法；在跟来自不同研究方向的朋友的讨论和碰撞之中，我真切地感受到自己对许多问题有了更深刻的理解。在活动结束之后，我把在这次研读营中学来的许多新鲜的想法马上现学现用在知乎 Live 做了一次介绍，取得了比较好的效果，一般听众对相关主题的兴趣和热情是我始料未及的。这既让我觉得开心，也许在不久后，我们在研读营中所讨论的许多问题都会成为一般公众都有所了解的常识；与此同时，这也让我觉得有某种紧迫感，应该在这样一个重大的突破到来之前做出一些重要的工作来。在这篇总结中，我将简单介绍一些在会议时和会议后产生的一些有趣的想法。

（1）新出版的知乎电子书《人工智能是如何设计的》

（2）明天的知乎 Live：学术视角重读凯文 · 凯利《失控》| 傅渥成Live

1.从面向对象的物理学到面向关系的物理学

第一个让我觉得有些冲击性的理念是尤亦庄提到的「从面向对象的物理学到面向关系的物理学」的转换。在一个张量网络上，量子比特本身并没有储藏信息，信息是蕴含在量子纠缠之中，与之类似的，在一个神经网络中，信息同样并不储藏在任何神经元上，而是在神经元的连接关系之中。这一观点本来对于复杂网络的研究者而言并不是特别新颖，然而在许多具体的问题中，「面向关系」和「面向对象」的矛盾仍然是存在着的，例如，互联网公司通过研究用户的社交关系可以预测用户的行为，这可以看成是「面向关系」的研究，然而当这些公司在进行用户画像或者进行更精准的营销时，他们更希望通过社交关系和用户行为的特点，给用户一些「标签」，从而简化相关问题。以我个人的角度，我更喜欢「面向关系」的研究，因为这时问题似乎变得很「干净」，我们可以把所有的集体性质看成都是「涌现」的；然而在更多的实际应用中（也包括我平时在进行的一些生物物理研究中），我们的简化模型仍大多是「面向对象」的模型。这说明我们的很多简化模型还有值得提高的地方——当然，我们未必有必要在所有的尺度上都建立起「面向关系」的物理模型。一个标准的构建简化模型的流程或许应该是这样的：

（1）关注「面向对象」的问题，在此基础上开展研究；

（2）构建（更大尺度上的、重正化后的）简化模型，仍然尝试围绕「对象」而非「个体」来建立；

（3）分析这一简化模型的低频模型或者在低维空间中的嵌入，在此基础上才可以更合理地（而非基于人为的经验）来构建「面向对象」的简化模型。

2.「涌现论」和「计算主义」

关于「涌现论」和「计算主义」的讨论也贯穿于研读营的始终。「面向关系」和「面向对象」这两种不同的思路其实也是「涌现」和「还原」两种不同方法论的体现。尽管我此前已经感受过「涌现论」的强大，我本人研究的方向是生物体系中的涌现现象，此前我曾经读到过温伯格的一段话，他在介绍 BCS 理论和 Higgs 粒子之间的联系时曾说：「凝聚态物理和粒子物理是相互联系的，……虽然各自领域获得的知识对另一方几乎没有帮助，但经验告诉我们，从一个领域发展起来的思想可以对另一个领域产生重大影响。有时这些思想在移植的过程中发生改变，人们在新的领域应用这些思想会发现新的价值。」我曾经的理解也大致限于此，但研读营中关于张量网络的介绍让我感觉自己更深刻地理解了「涌现论」，现在回过头再来看温伯格的这段话，我会觉得他的想法仍然太保守了，或许并不是「从一个领域发展起来的思想可以对另一个领域产生重大影响」，而是这些领域本身就存在着内在的联系，我们只是在不同的尺度上看着同样的问题而已。而关于「计算主义」，我也有了新的理解，此前我的认识主要仅限于对 Wolfram 的元胞自动机的一些讨论，我虽然同意这样的理解，但我会觉得这与实际的物理世界还有着较远的距离，我们并不知道是什么样的东西正在进行着计算。而直到了解了关于张量网络的一些物理图像之后，「宇宙是一个量子计算机」的想法让我产生了真正深刻的认同感，在我个人看来，这是「计算主义」的某种飞跃——我认为有三次这样的飞跃，第一次是毕达哥拉斯的「万物皆数」，第二次是 Wolfram 的计算主义，第三次则是量子信息与物质的统一（第二次量子革命）。尤亦庄对相关问题的讨论给我许多触动，他的梳理从另一个角度把我所关心的许多问题串联到了一起——我们的时空是在宇宙量子态「大数据」的冲刷下，通过「学习」演生出来的，而这种学习的动力学（重正化）决定了我们时空的几何，并最终导致了双曲几何。而又因为随机张量网络的几何就是演生的全息空间的几何，所以全息对偶可以看成一个逆Ising问题，而与这种重正化相关的Boltzmann机并不是唯一的，它们之间可以通过一些对称操作而进行相应的等价变换。

3.临界的限制条件

在研读营期间，这些讨论还让我想通了很多问题。例如在跟甄慧玲、李嫣然讨论 GAN 时，我们都认为「临界」应该是解决这个问题的关键。在研读营结束之后，我感觉突然想通了这一问题。虽然事后发现这个想法已经被其他人提出并且应用了，但能想清楚这样的问题仍然让我觉得激动不已。我所想通的是怎样在学习的过程中用到「临界」的限制条件。如果给在学习的时候给定一个限制的方向，强行让系统朝着最「通用」的方向去推广（例如从从较少的数据中）学到的东西。从统计物理的角度来思考问题，「临界」对应于「磁化率」最大，而「磁化率」是配分函数对数的二阶导数。对应到统计学习问题中，「磁化率」对应于对数似然的二阶导数——即 Fisher信息最大化。换句话说，这暗示我们最通用的系统应该是Fisher 信息最大化最大化的系统，在训练 GAN 时，我们需要考虑梯度下降和二阶导数的某种平衡。除此以外，在跟甄慧玲的讨论中，我还发现我在几年前进行的一个尝试很可能可以在逆 Ising 问题中有一些应用，这就实在是太叫人高兴了。

4.「几何」的认识

当开始考虑这个包含二阶导数的能量极小问题时，我又对「几何」有了一些新的认识。「几何」，尤其是「双曲几何」本身就是我们这次研读营的主题，复杂网络的几何与拓扑的等价问题也是我在最近一段时间有考虑过的问题，因为在蛋白质的进化问题和大脑的结构问题中都发现了与之对应的几何问题。而在返程的大巴上，苑明理与我还提起了关于临界的有关问题，我们对相关的问题都有一个基本的图像，我也知道有些人用蛋白质折叠的「最小阻挫」理论来类比一个很容易进行能量极小化的神经网络，但当时我还不完全清楚应该怎样定量地来对相关的想法进行描述。而其实这背后也蕴藏着一个几何，信息几何（information geometry）理论用Fisher 信息矩阵来作为度规，用这一语言，我们可以对阻挫最小化和将Fisher 信息最大化等问题进行较好的描述，而也是一个非常有趣的思路，而进一步，我们还可以将这种信息几何也嵌入到一个双曲空间中，这时的双曲空间反映的不是神经网络本身的连接性质，而是神经网络在最小化的过程中的许多「亚稳态」，换句话说，它反映了拓扑相同、但权重不同的一系列神经网络间的连接关系，而这个神经网络的网络很可能也蕴藏了层级化的结构，这个神经网络的网络的层级化的结构正是具有某种拓扑的神经网络可以较好地进行能量极小化的原因。

5.预测天气

在晚上的讨论期间，苑明理提起他在彩云天气进行的一些新的尝试，这也给我留下了很深的印象。与传统的基于微分方程的天气预报和基于神经网络的图像识别方法都不同，苑明理尝试了这两种思路的结合——用神经网络来训练微分方程中各非线性项的系数，这一方法提高了天气预报的准确性，但更重要的，这种将非线性动力学与神经网络的结合是极具启发性的。随着技术的发展和数据的收集，值得相信还许多有趣的问题（例如对神经动力学的建模）都可以用类似的方法来解决。近年来，有许多数学方法被发展出来用于从数据重建动力系统的演化方程，这些方法取得了许多重要的突破，但我觉得有时候，数学方法还很可能让我们错过了真正的问题。在我看来，在这个讨论中还有一个值得注意的点：对于一个给定的动力系统，「预测天气」本身就是一个很好的问题，它不同于基本的定性分析，也不同于长期的气候预测（可以用拓扑熵等进行度量），也不是简单预测某个特定的函数值或者某个特定的分布。「预测天气」本身很可能是对动力系统问题的一个很恰当的粗粒化（对应于符号动力系统），在对这样的动力系统进行「机器学习」时，通过对实际演化轨迹的学习得到方程中非线性项的系数不至于导致过拟合的效果，但也不会让问题丧失预测能力。所以，当我们在考虑动力系统与机器学习的结合问题时，我们不但可以考虑：

（1）怎样用机器学习改进对动力系统演化的预测；

（2）怎样用非线性科学的方法帮助我们对神经网络的拓扑结构进行定性分析；还可以思考；

（3）面对对复杂系统的演化，怎样选取恰当的「符号动力学」对这一系统进行描述，让这个动力系统的预测问题变成类似于「天气预报」的问题，从而使得其便于与机器学习的有关方法结合、并实现最准确的预测。

6.数据分析与可视化

此外，在这次的研读营上，吴令飞与董磊还介绍了社会科学中的许多重要的问题。这里有许多问题也让我非常感兴趣，我平时也会常常考虑社会科学问题，而随着最近美国大选的结果的出炉，更是让我感觉政治与社会的许多问题已经触手可及。一方面，随着数据的发展，我们可以做许多新的分析，这的确预示着新的研究范式的诞生；但与此同时，数据本身也很可能被滥用，这反而可能加强我们现有的偏见，而这在强大的媒体的作用下会愈发加剧我们认知中的错误。怎样在（可能并不可靠的数据中）找到真正有价值的东西，帮助我们建立（有说服力的）模型，从而帮助我们对问题进行简化，为我们的分析和预测提供洞见是一系列非常有挑战性的问题。而在研读营期间听到的一些分析手段对我们以后思考具体的社会问题也提供了新的思路，例如董磊介绍了用卫星数据与夜间灯光数据的结合来进行分析贫困问题的思路，这不仅仅是一个解决问题的思路，还是一个做交叉检验的手段，当我们面对各种各样互相矛盾的数据（例如大选的民调）时，是否可以用其它的数据来帮助进行类似的验证？而在问题以外，我还感受到数据分析和可视化的强大作用。这也是我希望自己可以在不久的将来可以有所提高的技能。

话题：