跨越学科界限：信息论视角下的生命起源与进化-集智俱乐部的财新博客-财新网

导语

博学多才的Christoph Adami将生物重新定义为“自我延续的信息串”，以此来研究生命的起源。

编译：集智俱乐部翻译组

来源：quantamagazine

原题：The Information Theory of Life

生命是如何产生的？

科学中几乎没有比这更重大、更困难的问题了。当然了，生命产生的时候，我们并不在场。并且另一个窘境是，除了生命存在这个事实，没有任何证据表明，生命可能来自之前的生命之外的任何东西。

Christoph Adami不知道生命是如何开始的，但是他知道很多其他事情。他的主要专业知识是信息论，这是上世纪四十年代发展起来的一个应用数学分支，最初是为了理解信息通过电线的传输，从那以后，这个领域有了广泛的应用。并且很少有研究人员比Adami做的更多。

Adami是密歇根州立大学的物理学和天文学教授，同时也是微生物学和分子遗传学教授。他将信息论提供的分析视角移植到包括微生物学、遗传性、物理学、天文学和神经科学在内的很多学科。

最近，他一直试图用信息论在生命第一次出现时可能存在的环境里撬开一个统计窗口。为了做到这一点，他从一个思想上的飞跃开始：不应该将生命视为化学事件，而应将其看作信息。

视角的转变为开始处理一个复杂问题开拓出了一条很好的道路。Adami将信息定义为“以高于偶然性的概率作出预测的能力”，并认为我们应该将人类或者说任何生物的基因组看作一个信息存储库，一个生物在进化的过程中收集到的有关周围世界的信息存储库。

这个库包含关于我们可能需要知道的一切事物的信息，例如，怎样将糖转化成能量，怎样躲避大草原上的捕食者，并且对于进化最为关键的，怎样繁殖或者自我复制。

重新概念化本身并不能解决生命如何开始的问题，却可以提供一个框架让我们首先能够开始计算生命发展的概率。 Adami解释说，信息的一个先决条件是存在一个字母表，也就是一组片段，如果将这些片段以正确的顺序组合，就能表达有意义的东西。

没有人知道在非生物分子结合起来产生第一个信息片段时，这套字母表是什么。但是，Adami试图利用信息论来帮助化学家思考，为了确保生命偶然出现这件事具有统计合理性，在生命的起始必须存在的分子的分布是怎样的。

利用信息

信息是什么？信息的概念又如何帮助我们理解生命是如何运作的呢？

Adami认为，信息是生命的流动。信息的一个定义是以高于偶然性的概率作出预测的能力。这是任何生命体都需要去做的，因为如果可以做到这点，就会有更高的生存几率。低等生物对周围环境中有碳、水、糖作出预测，高等生物则对像是是否被另一个生物追赶着、是否要逃跑这样的事情作出预测。我们的DNA是关于我们居住的世界以及如何在其中生存的百科全书。

将进化看作信息从环境向基因组流动的过程。基因组学习关于环境的知识，然后就能够利用这些信息来预测环境的状态。

信息与环境

信息是在它所在的环境中需要被解释的序列。一个人的DNA在火星上或水底毫无意义，因为这些不是人类居住的环境。具体环境下的序列才是信息。一个位于宿主体内的病毒序列有着足够的信息去复制，因为它可以利用环境（既宿主）的优势。

如果环境发生变化，首先发生的事情就是，原本关于环境的信息不再是信息了。灾难性的变化或许意味着拥有的关于环境的信息量减少了。而且，因为信息是生命的货币，突然之间个体不再适应环境了。这就是发生在恐龙身上的事情。

生命是储存在符号语言中的信息，它是自指的，作为信息能干涉自身，这很必要，因为任何的信息片段都很罕见，而唯一阻止信息稀有化的方式是利用序列内部的指令来复制序列自身。所有生命的秘密在于，复制过程可以让原本极其稀少的东西变得异常丰富。

德罗斯特效应是指，图片的一部分与整张图片相同。自指则是说，一个句子或公式等符号序列指向自身。两者都是一种递归模式。| Wikipedia

信息与生命起源

然而，第一个自指的信息片段从何而来呢？我们都知道地球上的生命包含随着演化而来的大量信息，这使得信息缓慢增长。在演化之前，没有这种信息积累的过程，因此，第一个信息片段必然是偶然产生的。

如果说生命是偶然出现的，那么偶然出现的概率有多大呢？一方面，这个问题很简单，另一方面它也很困难。我们不知道在生命起源之时，那种符号语言是什么，它可能是RNA或者任何其他分子，但是它必然是一套字母表。

简单的情况是，如果完全不给出任何关于这些字母表中的字母分布的知识，也就是说，字母表中的每个字母都有着同样的出现频率，生命出现的概率是多少？与此相对应，假设我们不是在寻找一种自我复制形式的生命，而是在寻找一个英文单词，比如说“origins”，如果随机地输入字母，那么将这个单词输入正确的可能性有多大？

答案是100亿分之一。即使是简单的单词序列也非常罕见。然后我们就可以做一个计算：随机得到100比特信息的可能性有多大？一切变得极其不可能，在有限宇宙中，概率实际上是零。

但是我们没有理由假定在生命初始阶段，字母表中的每个字母以同等比例出现。有没有可能字母出现的可能性已经按顺序排列好了呢？因为温度、压强和酸度这些局部状态的影响，实际上假设原初化学的单体出现的频率并不相等。也就是说，字母表中的字母出现的概率并不相同。

环境与生命

如果字母的概率分布是有偏差的，一些字母比其他字母更有可能出现，事情会如何呢？

比如说，如果英文字母 e 比 t 更普遍，t 又比 i 更普遍，结果表明，出现“origins”的可能性会提高一个数量级。仅仅通过让概率分布更接近可能的目标，最终的概率不是会提高一点点，而是会以指数因子增长。这对生命的起源意味着什么？

如果对生命自发出现的可能性做一个简单计算，答案会是，生命不可能出现在地球上或者宇宙中任何地方的任何一个星球上。

然而，实际上我们忽略了一个调整概率的过程。地球上存在极其丰富多样的环境，从火山口到海洋的最深处，我们有各种各样（或许有数以亿计）有着不同概率分布的不同地方，只要其中一个恰好接近于正确的环境组成即可。有了如此多种多样的环境，我们或许就有可能极其轻松得获得信息了。

但是我们并不知道第一个信息片段偶然出现时的环境状况，有大量的未知因素。其中最大的未知是，我们不知道生命起始最初的一组化学物质是什么。

在生命起源之时，最先出现什么？新陈代谢还是自我复制？这永远是一个问题。

自我复制需要能量，没有能量就无法复制，如果没有新陈代谢，能量从何而来呢？在海底火山口的环境下，似乎可以更轻易完成新陈代谢。如果完成了新陈代谢这一步，接下来只需要离开代谢源，建造能够使新陈代谢进行下去的基因（生命就可以维持）。

对待生命起源的方法与思考氨基酸这样的化学物质截然不同。对于化学物质，我们不知道其中蕴涵着多少信息。必须要有能衡量信息多少的过程，否则背后的数学就行不通。创造出特定类型的分子会使得创造其他分子的可能性更大，并使得概率分布向着使生命不那么罕见的方向偏转。需要的信息量本质上是零。

在与Adami的合作中，化学家会说：“我还是不明白你在说什么。” 因为他们不懂信息论，但是他们在听。这或许是第一次，信息论的严格应用如雨水般落在这些化学家身上，但是他们乐于学习。化学家会相信生命的基础是信息吗？大多数人会回答，这些解释让他们相信生命就是信息。

很多人或许会从神学层面反对“生命是偶然出现的”这种可能性，那是因为他们没有理解信息的概念。

跨越学科的界线

Adami涉足很多不同领域，比如生物学、物理学、天文学和神经科学。去年，他在博客文章中引用薛定谔的话：“我们中的一些人应该冒险去尝试将事实和理论结合起来，尽管其中一些是二手的、不完整的知识。” Adami也在用这种方式进行自己的工作。

Adami说，虽然被训练成一个理论物理学家，但是对不同领域了解的越多，自己就越发意识到这些不同领域并没有被人们划分的边界分隔开来，事实上，它们拥有大量的共同点。

他学会如何在一个遥远的领域发现可能的应用，然后跳到那个领域并试图取得进展。每一次跳到一个领域，都会有一群新的评审人，他们会问“这个家伙到底是谁？”，在研究过许多不同领域之后，Adami相信自己能够比别人看得更远。

薛定谔接着说，科学家是“冒着让自己出洋相的风险”从事这种结合工作的。Adami敏锐地意识到了这一点，正是因为不想让自己出洋相。

当他跳到另一个领域时，总是会尽可能多地阅读，直到对这个领域的文献有全面的了解，并能够表现得像是在这个领域内工作了20年一样。这很困难，因此需要付出加倍的努力。人们会疑惑Adami为什么频繁地转换研究领域，但Adami表示，如果发现一个问题，他有自信做出贡献，就很难无动于衷地将问题留给其他人。

翻译：公孙龙马

审校：Dr.gaster

编辑：王怡蔺

原文：

话题：