深度学习成功控制灵长类动物视觉医学应用前景广阔-集智俱乐部的财新博客-财新网

导语

你有没有想过如果有一天，人类可以设计一种方法，不借助手术，通过视觉的直接控制生物的大脑？这听起来像科幻小说里的桥段，就在本月，来自麻省理工学院麦戈文脑科学研究所的Pouya Bashivan团队在Science上发表了他们的最新研究，将这种科幻小说中的技术拉进了现实。他们够借助人工智能算法生成特定的图像，激活猴子大脑中特定位置的神经元。这项技术提供了无创的神经控制手段，给医学研究和疾病治疗提供了广阔的前景。

论文题目：

Neural population control via deep image synthesis

论文地址：

大脑的视觉皮层包含两条重要通路，其中有一条通向大脑腹侧，称为腹侧视觉通路（ventral stream）。撞到眼睛里的光会触发这些脑区中的神经元，神经元对此作出处理，以此构成视觉信息。然后到下颞叶（Inferior temporal lobe），流入控制情绪的杏仁核，引发或积极或消极的反应。

现在，深度神经网络技术已经能在计算机内模拟视觉通路，帮助研究员们更深入地理解大脑的工作，了解更多相关疾病背后的机理。目前，已有学者用深度神经网络来模拟腹侧视觉通路。其中，通路内部的每个脑区对应着模型中的一个网络层，每个脑神经元也对应着网络中的一个神经元，模型神经元和大脑神经元互相匹配。

但是，深度神经网络模型具有2个局限性。首先，我们并不知道这样一个模拟的视觉通路模型具体能实现哪些功能。深度学习网络就像一个“黑匣子”，它和大脑类似，我们虽然知道神经元的位置，但是我们不知道它怎么生视觉；我们虽然能构建深度学习网络，但是我们不清楚其内部进行了哪些计算，就无法预测它具体能做哪些事。此外，也并不能确定模型的泛化能力，由于之前的工作只用训练的图像对模型进行了测试，我们并不清楚模型对于其他图像的反应。

来自麻省理工学院麦戈文脑科学研究所的计算机科学家Pouya Bashivan及其团队设计了一个巧妙的实验对这两个局限性进行了探究。为了打开大脑和深度学习的"黑匣子",他们就以下两个问题进行了实验：

（1）是否可以从深度学习模型中，得到一些信息，进而实现对动物（非人灵长类动物，本文指猕猴）神经元的控制？

（2）对于新的图像，可否通过深度学习模型预测大脑神经元的反应？能否泛化？

接下来让我们看看实验是如何分别验证以上想法的。

1.研究思路

为了实现他们的目的，Pouya 将一个有96个位点的微小电极植入了猴子大脑皮层腹侧视觉流的一个小区域——V4区。这个重要的区域可以接收v1区，v2区传来的上游信息，进行处理，形成关于颜色、图像、甚至是脸部形状的信息，然后进一步传入下颞叶皮质区，形成意识。整个过程在六个脑区中按顺序进行，而如图所示，V4区处在神经通路的中间位置。

在实验中，猴子需要先看一些正常的图像，直到它们的大脑对这些"天然的图像"不再敏感，然后它们需要看一些由复杂曲率（complex-curvature）——一种算法计算合成的图片。猴子看图片会刺激大脑的神经网络，信息经过V4区的时候就会被电极捕捉起来，从而，研究人员就能知晓在猴子脑内发生了什么样的故事。深度学习模型具备与腹侧视觉流相同的层次以及原理，所以他们希望训练神经网络，将深度学习模型中的“神经元”与猴子大脑中真实的“神经位点”相互对应上。由此，他们就可以合成一些人工合成的图片“控制器”来通过猴子的眼睛，控制它们大脑内部的神经活动。

2.实验过程

预实验简介——神经元如何处理自然的图像？

在预实验中，研究员们首先测试了V4区神经元对自然图像的反应。他们使用了640张自然图像，v4区某个示例神经元的激发率如下图所示。黑线“image On”表示图像出现的时间，图像展示了从图像出现到消失之后的一段时间内神经元的活动变化。图像出现，神经元的反应逐渐升高；图像消失，神经元的活动开始减少，激发率不断下降。图中的黑线和紫线分别表示对神经元刺激最高和最低的两张图像的数据，重叠的灰线表示640张图像对该神经元刺激程度变化的过程。

图1B：自然图像对v4区某个神经元的刺激情况。下图为自然图像的最高和最低神经反应的光栅图，分别对应于顶部面板中的黑线和紫线。

知道了猴子V4神经元如何处理图像之后，这些科学家们就能在人工神经网与人造神经网络之间创造对应关系。

实验中的一个影响因素

在本实验中，一个不得不提的概念是感受野（Receptive field)，经典感受野（cRF）描述可以激发或抑制神经元活动的一个区域。神经位点的感受野重叠，意味着神经位点更容易被一起激活。展示自然图像的过程同样是测量各个神经位点感受野的过程，在预实验中科学家们成功测定了三只猴子感受野。在后文中，感受野使用cRF表示。

图1 受试者（猴子）的感受野示意图。

对照实验简介——两种不同的控制思路

接下来的实验中，我们来看看研究人员是如何使用两种异曲同工的方式反过来控制猴子大脑的V4区的。

他们合成控制图像，一种称为“拉伸”法（ stretch control），一种称为“独热群”法（one–hot–population control）。“拉伸”法会尽可能地提高目标神经元的响应，但不会去调节其他神经元的响应（其他神经元的响应也可能会增加）。“独热群”法生成的图像在尽可能地提高目标神经元响应的同时，还会抑制其他神经元的响应。

以三个神经元为例，图1-A展示了这两种方式的区别。“拉伸”法合成的图像会提高对目标神经位点1的刺激，但同时，周围的神经位点2和3的响应也提高了。“独热群”法合成的图像也提高了对神经位点1的刺激，此外，它还抑制了另外两个神经位点响应，神经元2和神经元3的响应程度甚至低于对它们对自然图像的响应程度。

三维坐标中，每个轴代表某个神经元对图像的响应情况，用激发率（Firing Rate）量化响应情况，人工神经元和大脑的神经元相似，都可以用激发率（firing rate）来衡量它们的兴奋程度，前者可以通过计算得到，后者通过测量生物电的方式。每个点的坐标即为不同神经元对同一图像的激发率。蓝点显示了三个神经元对自然图像的响应，红点则显示了三个神经元对控制器图像的响应。

3.实验结果

现在让我们回过头来回答最初的问题：深度学习模型是否能泛化？它是否控制真实神经网络更深层的活动？

答案是肯定的，实验中猕猴M的38个神经位点和猕猴S的19个位点参与了测量。测试情况是：合成图像比自然图像的最大响应率提高了57%。猕猴的V4区域对于人工神经网络产生的图像产生了独特的相应。为了验证cRF的影响，即便从上述33个神经位点中挑选出了12个高度重叠的cRF区域进行实验，该情况下合成图像相对自然图像的改善幅度为40%；挑选出14个高度重叠的cRF图像进行实验，合成图像相对复杂曲率图像的改善幅度为112%

“独热”法不仅对整个v4区域的神经元有效，也能很好的控制单个神经位点的活动，它具有更大的控制精度。对于v4神经视区内感受野高度重叠的8个神经位点，可以实现对每个位点的单独控制，即最大程度提高某位点的响应，抑制其他位点的响应。如图所示，使用不同的深度学习人造图像可以分别控制八个图像。

图4：对于8个cRF高度重叠的神经位点，实现“独热（OHP）”现象。目标神经位点为暗红色，并用箭头标记出来。误差线表示95%的置信区间，结果十分显著。

两种方法的对比

但是，“独热”法在合成控制器图像时，和拉伸法相比，效率更低。

由于每个神经位点都对一些特定的图像特征敏感，在抑制某些神经位点的同时，也降低了对相关图像特征的敏感度。利用人工神经网络合成控制器图像时，独热法需要比拉伸法花两倍多的步骤得到一个图像。如图5所示，独热法合成的图像显示的特征，要比拉伸法少的多。

以上两种方式下得到的合成图像，都与我们日常所见的实际事物有很大的差异。后续的研究中可以将随机合成的控制器图像作为新图像，来测试深度学习模型的泛化能力。

实验结果与上述结果类似，虽然深度学习模型在大多数情况下都高估了神经位点对合成图像刺激的反应，但该模型的预测结果与大脑的v4区响应结果较为相似，这解决了该模型能否泛化的问题。值得注意的是，由于合成图像是模型生成的，因此无法评估“超过模型可行域”情况的图像预测精度。

4.深度神经网络控制大脑神经活动的未来

尽管我们很难理解其具体的工作方式，但是目前的实验表明，人工神经网络和真实的神经网络是极其相似的，匹兹堡大学生物工程副教授Aaron Batista说：“这是个了不起的想法，它的实现是一个壮举。到目前为止，这可能是使用人工神经网络来理解真实神经网络的最强有力的案例。”

既然我们能够掌握体外的深度学习网络，那它已经具备了潜在的应用价值——这种神经控制活动可以通过非侵入、低风险的方式进行。此外，对于训练领域之外的新图像，深度学习也有较好的拓展能力。深度学习模型仍然不够完善，更准确的深度学习模型会具有更加精确的神经控制，这些神经控制不仅在神经科学的研究领域，在相关医疗应用领域也会产生显著的影响。

作者：尚奇奇

审校：陈曦

编辑：王怡蔺

话题：