阅读:0
听报道
导语
计算机视觉的研究员们发现了一个全新的世界,它隐藏在我们中间,包含了很多视觉信号,比如体现环境变化的细微动作,角落四周的模糊图像。
编译:集智俱乐部翻译组
来源:quantamagazine
原题:The new science of seeing around corners
Antonio Torralba 是一名研究计算机视觉( Computer vision ,以下简称“ CV ”)的科学家。2012年,他在西班牙海岸度假时,注意到酒店房间的墙壁上有一些散落的阴影,但却找不出这些阴影的来源。
后来,Torralba 意识到,墙上的浅色光斑并不是阴影,而是窗外院子的微弱倒影。窗户就像一个简单的针孔照相机,光线穿过小孔,在室内的墙壁上投射出院子的倒影。足够亮堂时,墙上几乎看不到任何图像,但 Torralba 意识到,世界上还充斥着很多我们肉眼看不见的视觉信息。
他说,“表面来看,这些图像是隐形的,但其实,它们一直在我们身边。”
Bill Freeman 是 Torralba 的同事,两人都是 MIT( Massachusetts Institute of Technology ,麻省理工学院)的教授。Torralba 在酒店中的经历让他们意识到,生活中还存在着很多类似的相机,他们把这些相机称为“偶然相机”( accidental cameras )。
除了窗户,自然界的偶然相机还有:拐角、室内植物、以及能够创造环境微弱倒影的其他物体。一般来说,我们看不见这些倒影,它们比其他图像暗了有1000倍。对此,Freeman 说道:“我们已经找到了取出这些图像,并让它们变得可见的方法。”
两位教授研究了在我们眼前,究竟隐藏了多少视觉信息。在他们的第一篇论文中, Freeman 和 Torralba 展示了他们的成果——用 iPhone 拍摄的房间墙上变化的光线,被成功地处理成了窗外的场景。
论文1:
http://people.csail.mit.edu/billf/publications/Accidental_Pinhole.pdf
题目:
Accidental pinhole and pinspeck cameras: revealing the scene outside the picture
去年秋天的一场会议中,两人及其合作者报告说,他们可以通过拍摄拐角附近的地面,发现有人在拐角的另一侧移动。
报告:
https://people.csail.mit.edu/klbouman/pw/papers_and_presentations/cornercam_iccv2017.pdf
题目:
Turning Corners into Cameras: Principles and Methods
在今年夏天出版的论文里,他们展示了更进一步的成果。通过拍摄室内植物,利用植物叶子投射的不同阴影,可以重建房间其余部分的三维图像。他们还实现了通过放大叶片的振动,听取环境中的声音,这时的叶子就像一个“可视化麦克风”。
论文2:
http://openaccess.thecvf.com/content_cvpr_2018/html/Baradad_Inferring_Light_Fields_CVPR_2018_paper.html
题目:
Inferring Light Fields From Shadows
在Torralba住的房间外的院子里,他发现房间的窗户偶然间起到了针孔摄像机的作用(图1)。用卡纸遮住大部分窗户,减小针孔的尺寸,可以让投射在墙上的图像(2)变得更加清晰(3)。倒过来看,图像展示了院子里的场景(4)。
2014年,科学家利用空芯片袋的运动重建了一段音频,音频的内容是一位男士的讲话:“Mary had a little lamb…”(1877年,爱迪生用留声机录制的第一句话。)
利用一个空芯片袋的微小振动,重建了“Mary Had a Little Lamb”这段录音,通过隔音窗可以看到这个芯片袋。
2012年,Torralba 和 Freeman 发表了“偶然相机”论文(即论文1);同年,MIT校园中的另一个小组,由 Ramesh Raskar 领导的团队,也发表了他们的成果。
论文3:
https://www.nature.com/articles/ncomms1747.pdf
题目:
Recovering three-dimensional shape around a corner using ultrafast time-of-flight imaging
这两篇论文的意义是里程碑式的, 基于他们的工作,研究员们开始了对“非视线成像”技术的探索,即如何看到角落的图像,并推断不直接可见的信息。
2016年,在这些成果的推动下,DARPA( the Defense Advanced Research Projects Agency ,美国国防高级研究计划局)投入2700万美元,开展了 REVEAL 计划( Revolutionary Enhancement of Visibility by Exploiting Active Light-fields ,利用主动光场提高能见度),为全国各地一些新兴实验室提供资金。
从那时起,一系列数学技巧和新见解的应用,使“非视线成像”变得更加有力和实用。
显然,该技术会在军事和间谍领域发挥不错的作用,此外,研究人员也探讨了其在无人驾驶汽车、机器人视觉、医学成像、天文学、太空探索和搜救任务等场景中的应用。
Torralba 说,走上这条路时,他和 Freeman 并没有任何特别的想法。他们只是在钻研,不停地研究图像形成和相机构成的基础知识,这自然需要对光的行为,对它与环境中的物体和表面之间的相互作用更全面的研究。之后,他们看到了那些从没人想过要找的东西。
Torralba 指出,心理学研究表明,“也许是因为我们看到的大多都不是真正的阴影,理解它们才变得那么困难。甚至到后来,眼睛也不再尝试去理解它们了。”
“偶然相机”记录下了什么?
光线承载了我们视野之外的图像,它们不断地打在墙等其它表面上,并反射进入我们的眼睛。但是,为什么这些图像如此的微弱呢?
这是因为,无数光线游走无数个方向里,它们被分散了。
当被投射的表面只允许通过一组特定的光线时,就需要极大地限制落到表面上的光线,才能够形成一幅图像。这就是针孔摄像机的原理。2012年,Torralba 和Freeman 得出了如下结论:环境中有许多物体和特征会自然地限制光线,形成足够被计算机检测出来的微弱图像。
由于被成像物体上的每个点,都只发射具有正确角度的单一光线,以便能够穿过小孔,所以针孔相机的孔径越小,所得到的图像就越清晰。 Torralba 酒店房间的窗户太大,无法产生清晰的图像。他和 Freeman 也知道,一般来说,有用的“偶然针孔相机”很少见。
但是,他们意识到,任何小小的遮光体都可以组成一个“逆针孔相机”(或“针点相机”),这种相机形成的图像到处都是。
想象一下,你在透过窗帘的缝隙拍摄房间的内壁,当然,看不到多少东西。
突然,一个人的手臂进入了你的视野。
比较手臂出现前后墙上光的不同强度,可以得到环境的信息。第一帧时,打到墙上的一组光线,被下一帧出现的手臂暂时挡住了。Freeman 说,用第一帧图像的数据减去第二帧图像的数据,“可以提取出被手臂遮住的东西” ——一束代表房间部分图像的光线。“如果你分别观察过阻挡光线,以及让光穿过的物体,你可以发现更多存在这些针孔状图像的地方。”
除了研究小强度变化的“偶然相机”工作外,Freeman 和他的同事还设计了一种算法,用来检测和放大颜色的细微变化(比如人脸上血管中血液的进出)和一些微小的动作(比如芯片袋的震动),像百分之一像素大小这样细微的运动,常常会被埋没在噪声里。
但现在,研究员们可以很轻易地发现这些小动作。
通过将图像转换成正弦波的结构,利用数学方法可以有效地实现目标。正弦波代表许多像素的平均值,可以分散噪声,所以转换空间后,信号不会受到噪声的干扰。
因此,研究人员可以检测两帧之间正弦波位移,并放大这些位移,将数据变换回来。
现在,研究员们开始结合这些不同的技巧,来获取隐藏的视觉信息。去年10月,在 Freeman 当时的研究生 Katie Bouman 领导的研究报告中,他们表明,建筑物的角落可以充当相机,显示拐角处物体粗糙的图像。
和针孔,针点一样,边缘和拐角也会约束光线的通过。Bouman 和同事曾经在白天做过实验,利用传统的记录设备( IPhone 也可以),拍摄了一座建筑物角落里的“半影”:角落周围隐藏光线中的一小部分,照亮了本影,就会形成圆锥形的半影区。
例如,一个穿着红衬衫的人走到角落时,衬衫会向半影区投射少量的红光,当人走路时,这种红光会扫过半影,肉眼虽然看不见,但用算法处理后就会变得很清晰。
6月,Freeman 和同事们发布了一项开创性的研究,利用墙边一盆叶子茂密的植物投射出的阴影,重建了一个房间的“光场”——一张显示室内光线强度和方向的照片。
叶子充当了针点式照相机,每个相机都阻挡了一束不同的光线。将每片叶子的阴影与其他叶子的阴影进行对比,可以发现其缺失的那一组光线,从而解锁隐藏场景的一部分图像。考虑到视差,研究人员之后会将这些图像拼接在一起。
由于算法中已经嵌入了关于环境的先验知识,这种方法产生的图像比早期的“偶然相机”产生的图像更为清晰。已知的室内植物的形状,假设自然图像趋于平滑的前提,以及其他允许研究人员对噪声信号进行推断的“先验知识”,都有助于锐化得到的图像。Torralba 说,光场技术“需要在深入了解环境的前提下才能进行重建工作,但它的结果能为你提供很多信息”。
“散射光”的写真长什么样?
Ramesh Raskar 是 MIT 另一位研究 CV 的科学家 ,也是一位 TED 演讲者,他希望利用技术改善人们的生活。Freeman等人发现了那些藏在我们身边的图像,与此同时,Ramesh Raskar 也在做着相关的研究。
推荐TED:
https://www.ted.com/talks/ramesh_raskar_a_camera_that_takes_one_trillion_frames_per_second
题目:
Imaging at a trillion frames per second |
万亿分之一秒的图像
与 Freeman 团队不同的是,他采取的是一种“主动成像”的方法 :利用昂贵的专业相机激光系统发射激光,并拍摄返回的光线,绘制出角落周围的高分辨率图像。
2012年,Raskar 和他的团队实现了他五年前的一个想法。
他们开创了一项技术,朝墙上发射一束激光,激光撞击墙面,这束光散射到各个方向,其中一些光打到隐藏的物体上,这些光也会散射,打到墙壁上,墙壁接收到来自隐藏物体的散射光后,进行反射,最终,一小部分光会返回相机里。每次脉冲后的瞬间,使用超高速扫描照相机,以每秒数十亿帧的速度记录单个光子,以检测从墙壁反弹回来的光子。
通过测量返回光子的飞行时间,研究人员可以知道它们走了多远,从而重建出藏在屏障后物体的详细三维结构。
该技术的不足在于,必须用激光光栅扫描墙壁,才能形成三维图像。比如说,角落里有一个隐藏的人。“从头部特点的点、肩膀特定的点和膝盖特定的点发出的光,都可能在相同的时间到达相机,”Raskar 讲道,“但如果我稍微更改下激光照射的方向,那么来自三个点的光就不会同时到达。”必须把所有图像的放在一起,并解决所谓的“逆问题”,才能重建隐藏物体的三维结构。
在解决逆问题时,Raskar 采用的原始算法计算量非常大,他的实验设备花费了50万美元。好消息是,目前在简化数学和削减成本方面,该算法已经取得了很大的进展。Nature 杂志3月份刊登的一篇论文中,提出一种高效低成本的 3D 物体成像方法(该论文以兔子摆件为例进行了研究)。
论文4:
https://www.nature.com/articles/nature25489
题目:
Confocal non-line-of-sight imaging based on the light-cone transform
论文的三位作者 Matthew O'Toole,David Lindell 和 Gordon Wetzstein 来自于斯坦福大学,针对原始算法的问题,他们设计了一种强大的新算法,并采用了相对便宜的 SPAD 相机,这种相机的帧频率比 Raskar 使用的相机频率低一些。在其中两位作者的职业生涯早期,Raskar曾经指导过他们,他评价说,这种方法“非常聪明”,并表示,“这篇论文是我最喜欢的论文之一!”
在主动“非视线成像”中,墙壁散射出来的光线,打在隐藏的物体上(一个兔子摆件),摆件上的光线进行散射,打到墙壁上,再反射回发射点(相机所在的位置)。
先前的算法有一个待理清楚的细节问题。
一般来说,研究人员会拍摄墙上不同于激光点的光子,这样他们的相机就可以避开激光的反向散射光。但是,通过把激光和相机指向几乎相同的点, 研究人员发现射出和射入的光子可能出现的范围是相同的。光从表面散射时,会形成一个光子的不断扩散的范围,随着时间的推移,这个范围会形成圆锥形。
20世纪初,爱因斯坦的老师 Hermann Minkowski 提出了“光锥”的概念,来描述这一现象。 O'Toole 简化了这种说法,把光子的飞行时间与光锥表面的位置联系了起来,并将该过程称之为“光锥变换”。
目前,无人驾驶汽车已经具备了用于直接成像的激光雷达系统,可以想象,有一天,它也可以配备 SPAD,观察街角的情况。
Andreas Velten 是2012年, Raskar那篇论文的第一作者,他说道,“不久的将来,会提供手持形式的“激光SPAD”传感器。”他现在在 Wisconsin 大学带领一个“主动成像”小组进行相关研究。
Velten 认为,当前的任务是“进入更复杂的场景”和现实场景,“而不是必须非常小心地设置一个白色物体,周围全是黑色空间的场景。相机得能自动对焦。”
事物藏于何处?
在以上发展的基础上,Freeman 团队的研究员们开始了对被动和主动两种“非视线成像”方法的整合工作。博士后研究员 Christos Thrampoulidis 领导的论文中,介绍了他们的研究成果。
如果用激光进行主动成像时,角落里存在着一种已知形状的针点相机,就可以不需要光子的飞行时间信息,直接利用被动成像的方法重建隐藏的场景。 Thrampoulidis 自信地讲道:“我们应该用普通的 CCD 相机就能实现。”
有朝一日,这种技术会在搜救领域,自动机器人领域发挥重要的作用。Velten正在与NASA的喷气推进实验室( Jet Propulsion Laboratory )合作,开展一项对月球洞穴内部进行远程成像的项目。
与此同时,Raskar及其团队已经使用他们的方法实现了阅读闭合图书的前几页,透过迷雾看到远处一小段区域的功能。
此外,除了前面提到的音频重建工作,在健康、安全设备、检测天体的微小运动等方面,Freeman 的运动放大算法也能派上用场。David Hogg 是纽约大学和 Flatiron 协会的天文学家与数据科学家,他认为:“这是一个非常棒的想法,我们必须将它应用在天文学研究中。”
利用“非视线成像”技术,看到屏障后的事物,确实会引发对机密问题的讨论,对于这个问题,Freeman 有一些自己的思考。
“这是一个在我职业生涯中思考了无数次的问题。” Freeman 从小就是一个相机迷,他用它拍照,鼓捣里面的零件,沉醉在相机的世界里。
刚开始工作时,他从没打算过从事任何与军事或间谍相关的工作。但随着时间的推移,他开始认为,“技术是一种工具,可以在多种场景中使用。如果试图避免任何军事用途,那就永远不会做出任何有用的事了。“他补充说,即使在军事领域,“这种相机也有多种应用方法,比如帮助士兵看到躲避的攻击者,避免被杀死。通常来说,知道物体在哪里总是一件好事。”
但是,真正令他兴奋的,并不是技术,而是发现了身边隐藏的现象。 Freeman 认为,“世界上还有很多待发现的事物。”
翻译:尚奇奇
审校:刘培源
编辑:王怡蔺
原文:https://www.quantamagazine.org/the-new-science-of-seeing-around-corners-20180830?from=singlemessage
话题:
0
推荐
财新博客版权声明:财新博客所发布文章及图片之版权属博主本人及/或相关权利人所有,未经博主及/或相关权利人单独授权,任何网站、平面媒体不得予以转载。财新网对相关媒体的网站信息内容转载授权并不包括财新博客的文章及图片。博客文章均为作者个人观点,不代表财新网的立场和观点。