财新传媒
位置:博客 > 集智俱乐部 > 视觉黑科技——从角落的阴影中重建完整场景信息

视觉黑科技——从角落的阴影中重建完整场景信息

导语
计算机视觉的研究员们发现了一个全新的世界,它隐藏在我们中间,包含了很多视觉信号,比如体现环境变化的细微动作,角落四周的模糊图像。
 
编译:集智俱乐部翻译组
来源:quantamagazine
原题:The new science of  seeing around corners
 
Antonio Torralba 是一名研究计算机视觉( Computer vision ,以下简称“ CV ”)的科学家。2012年,他在西班牙海岸度假时,注意到酒店房间的墙壁上有一些散落的阴影,但却找不出这些阴影的来源。
 
后来,Torralba 意识到,墙上的浅色光斑并不是阴影,而是窗外院子的微弱倒影。窗户就像一个简单的针孔照相机,光线穿过小孔,在室内的墙壁上投射出院子的倒影。足够亮堂时,墙上几乎看不到任何图像,但 Torralba 意识到,世界上还充斥着很多我们肉眼看不见的视觉信息。
 
他说,“表面来看,这些图像是隐形的,但其实,它们一直在我们身边。”
 
 
Bill Freeman 是 Torralba 的同事,两人都是 MIT( Massachusetts Institute of Technology ,麻省理工学院)的教授。Torralba 在酒店中的经历让他们意识到,生活中还存在着很多类似的相机,他们把这些相机称为“偶然相机”( accidental cameras )。
 
除了窗户,自然界的偶然相机还有:拐角、室内植物、以及能够创造环境微弱倒影的其他物体。一般来说,我们看不见这些倒影,它们比其他图像暗了有1000倍。对此,Freeman 说道:“我们已经找到了取出这些图像,并让它们变得可见的方法。”
 
两位教授研究了在我们眼前,究竟隐藏了多少视觉信息。在他们的第一篇论文中, Freeman 和 Torralba 展示了他们的成果——用 iPhone 拍摄的房间墙上变化的光线,被成功地处理成了窗外的场景。
 
论文1:
http://people.csail.mit.edu/billf/publications/Accidental_Pinhole.pdf
题目:
Accidental pinhole and pinspeck cameras: revealing the scene outside the picture
 
去年秋天的一场会议中,两人及其合作者报告说,他们可以通过拍摄拐角附近的地面,发现有人在拐角的另一侧移动。
 
报告:
https://people.csail.mit.edu/klbouman/pw/papers_and_presentations/cornercam_iccv2017.pdf
题目:
Turning Corners into Cameras: Principles and Methods
 
在今年夏天出版的论文里,他们展示了更进一步的成果。通过拍摄室内植物,利用植物叶子投射的不同阴影,可以重建房间其余部分的三维图像。他们还实现了通过放大叶片的振动,听取环境中的声音,这时的叶子就像一个“可视化麦克风”。
 
论文2:
http://openaccess.thecvf.com/content_cvpr_2018/html/Baradad_Inferring_Light_Fields_CVPR_2018_paper.html
题目:
Inferring Light Fields From Shadows
 
在Torralba住的房间外的院子里,他发现房间的窗户偶然间起到了针孔摄像机的作用(图1)。用卡纸遮住大部分窗户,减小针孔的尺寸,可以让投射在墙上的图像(2)变得更加清晰(3)。倒过来看,图像展示了院子里的场景(4)。
 
2014年,科学家利用空芯片袋的运动重建了一段音频,音频的内容是一位男士的讲话:“Mary had a little lamb…”(1877年,爱迪生用留声机录制的第一句话。)
 
利用一个空芯片袋的微小振动,重建了“Mary Had a Little Lamb”这段录音,通过隔音窗可以看到这个芯片袋。
 
2012年,Torralba 和 Freeman 发表了“偶然相机”论文(即论文1);同年,MIT校园中的另一个小组,由 Ramesh Raskar 领导的团队,也发表了他们的成果。
 
论文3:
https://www.nature.com/articles/ncomms1747.pdf
题目:
Recovering three-dimensional shape around a corner using ultrafast time-of-flight imaging
 
这两篇论文的意义是里程碑式的, 基于他们的工作,研究员们开始了对“非视线成像”技术的探索,即如何看到角落的图像,并推断不直接可见的信息。
 
2016年,在这些成果的推动下,DARPA( the Defense Advanced Research Projects Agency ,美国国防高级研究计划局)投入2700万美元,开展了 REVEAL 计划( Revolutionary Enhancement of Visibility by Exploiting Active Light-fields ,利用主动光场提高能见度),为全国各地一些新兴实验室提供资金。
 
从那时起,一系列数学技巧和新见解的应用,使“非视线成像”变得更加有力和实用。
 
显然,该技术会在军事和间谍领域发挥不错的作用,此外,研究人员也探讨了其在无人驾驶汽车、机器人视觉、医学成像、天文学、太空探索和搜救任务等场景中的应用。
 
Torralba 说,走上这条路时,他和 Freeman 并没有任何特别的想法。他们只是在钻研,不停地研究图像形成和相机构成的基础知识,这自然需要对光的行为,对它与环境中的物体和表面之间的相互作用更全面的研究。之后,他们看到了那些从没人想过要找的东西。
 
Torralba 指出,心理学研究表明,“也许是因为我们看到的大多都不是真正的阴影,理解它们才变得那么困难。甚至到后来,眼睛也不再尝试去理解它们了。”
 
“偶然相机”记录下了什么?
 
光线承载了我们视野之外的图像,它们不断地打在墙等其它表面上,并反射进入我们的眼睛。但是,为什么这些图像如此的微弱呢?
 
这是因为,无数光线游走无数个方向里,它们被分散了。
 
当被投射的表面只允许通过一组特定的光线时,就需要极大地限制落到表面上的光线,才能够形成一幅图像。这就是针孔摄像机的原理。2012年,Torralba 和Freeman 得出了如下结论:环境中有许多物体和特征会自然地限制光线,形成足够被计算机检测出来的微弱图像。
 
由于被成像物体上的每个点,都只发射具有正确角度的单一光线,以便能够穿过小孔,所以针孔相机的孔径越小,所得到的图像就越清晰。 Torralba 酒店房间的窗户太大,无法产生清晰的图像。他和 Freeman 也知道,一般来说,有用的“偶然针孔相机”很少见。
 
但是,他们意识到,任何小小的遮光体都可以组成一个“逆针孔相机”(或“针点相机”),这种相机形成的图像到处都是。
 
 
想象一下,你在透过窗帘的缝隙拍摄房间的内壁,当然,看不到多少东西。
 
突然,一个人的手臂进入了你的视野。
 
比较手臂出现前后墙上光的不同强度,可以得到环境的信息。第一帧时,打到墙上的一组光线,被下一帧出现的手臂暂时挡住了。Freeman 说,用第一帧图像的数据减去第二帧图像的数据,“可以提取出被手臂遮住的东西” ——一束代表房间部分图像的光线。“如果你分别观察过阻挡光线,以及让光穿过的物体,你可以发现更多存在这些针孔状图像的地方。”
 
除了研究小强度变化的“偶然相机”工作外,Freeman 和他的同事还设计了一种算法,用来检测和放大颜色的细微变化(比如人脸上血管中血液的进出)和一些微小的动作(比如芯片袋的震动),像百分之一像素大小这样细微的运动,常常会被埋没在噪声里。
 
但现在,研究员们可以很轻易地发现这些小动作。
 
通过将图像转换成正弦波的结构,利用数学方法可以有效地实现目标。正弦波代表许多像素的平均值,可以分散噪声,所以转换空间后,信号不会受到噪声的干扰。
 
因此,研究人员可以检测两帧之间正弦波位移,并放大这些位移,将数据变换回来。
 
现在,研究员们开始结合这些不同的技巧,来获取隐藏的视觉信息。去年10月,在 Freeman 当时的研究生 Katie Bouman 领导的研究报告中,他们表明,建筑物的角落可以充当相机,显示拐角处物体粗糙的图像。
       
 
和针孔,针点一样,边缘和拐角也会约束光线的通过。Bouman 和同事曾经在白天做过实验,利用传统的记录设备( IPhone 也可以),拍摄了一座建筑物角落里的“半影”:角落周围隐藏光线中的一小部分,照亮了本影,就会形成圆锥形的半影区。
 
例如,一个穿着红衬衫的人走到角落时,衬衫会向半影区投射少量的红光,当人走路时,这种红光会扫过半影,肉眼虽然看不见,但用算法处理后就会变得很清晰。
 
6月,Freeman 和同事们发布了一项开创性的研究,利用墙边一盆叶子茂密的植物投射出的阴影,重建了一个房间的“光场”——一张显示室内光线强度和方向的照片。
 
叶子充当了针点式照相机,每个相机都阻挡了一束不同的光线。将每片叶子的阴影与其他叶子的阴影进行对比,可以发现其缺失的那一组光线,从而解锁隐藏场景的一部分图像。考虑到视差,研究人员之后会将这些图像拼接在一起。
 
由于算法中已经嵌入了关于环境的先验知识,这种方法产生的图像比早期的“偶然相机”产生的图像更为清晰。已知的室内植物的形状,假设自然图像趋于平滑的前提,以及其他允许研究人员对噪声信号进行推断的“先验知识”,都有助于锐化得到的图像。Torralba 说,光场技术“需要在深入了解环境的前提下才能进行重建工作,但它的结果能为你提供很多信息”。
 
“散射光”的写真长什么样?
 
Ramesh Raskar 是 MIT 另一位研究 CV 的科学家 ,也是一位 TED 演讲者,他希望利用技术改善人们的生活。Freeman等人发现了那些藏在我们身边的图像,与此同时,Ramesh Raskar 也在做着相关的研究。
 
推荐TED:
https://www.ted.com/talks/ramesh_raskar_a_camera_that_takes_one_trillion_frames_per_second
题目:
Imaging at a trillion frames per second |
万亿分之一秒的图像
 
与  Freeman  团队不同的是,他采取的是一种“主动成像”的方法 :利用昂贵的专业相机激光系统发射激光,并拍摄返回的光线,绘制出角落周围的高分辨率图像。
       
 
2012年,Raskar 和他的团队实现了他五年前的一个想法。
 
他们开创了一项技术,朝墙上发射一束激光,激光撞击墙面,这束光散射到各个方向,其中一些光打到隐藏的物体上,这些光也会散射,打到墙壁上,墙壁接收到来自隐藏物体的散射光后,进行反射,最终,一小部分光会返回相机里。每次脉冲后的瞬间,使用超高速扫描照相机,以每秒数十亿帧的速度记录单个光子,以检测从墙壁反弹回来的光子。
 
通过测量返回光子的飞行时间,研究人员可以知道它们走了多远,从而重建出藏在屏障后物体的详细三维结构。
 
该技术的不足在于,必须用激光光栅扫描墙壁,才能形成三维图像。比如说,角落里有一个隐藏的人。“从头部特点的点、肩膀特定的点和膝盖特定的点发出的光,都可能在相同的时间到达相机,”Raskar 讲道,“但如果我稍微更改下激光照射的方向,那么来自三个点的光就不会同时到达。”必须把所有图像的放在一起,并解决所谓的“逆问题”,才能重建隐藏物体的三维结构。
 
在解决逆问题时,Raskar 采用的原始算法计算量非常大,他的实验设备花费了50万美元。好消息是,目前在简化数学和削减成本方面,该算法已经取得了很大的进展。Nature 杂志3月份刊登的一篇论文中,提出一种高效低成本的 3D 物体成像方法(该论文以兔子摆件为例进行了研究)。
 
论文4:
https://www.nature.com/articles/nature25489
题目:
Confocal non-line-of-sight imaging based on the light-cone transform
 
论文的三位作者 Matthew O'Toole,David Lindell 和 Gordon Wetzstein 来自于斯坦福大学,针对原始算法的问题,他们设计了一种强大的新算法,并采用了相对便宜的 SPAD 相机,这种相机的帧频率比 Raskar 使用的相机频率低一些。在其中两位作者的职业生涯早期,Raskar曾经指导过他们,他评价说,这种方法“非常聪明”,并表示,“这篇论文是我最喜欢的论文之一!”
       
在主动“非视线成像”中,墙壁散射出来的光线,打在隐藏的物体上(一个兔子摆件),摆件上的光线进行散射,打到墙壁上,再反射回发射点(相机所在的位置)。
       
 
先前的算法有一个待理清楚的细节问题。
 
一般来说,研究人员会拍摄墙上不同于激光点的光子,这样他们的相机就可以避开激光的反向散射光。但是,通过把激光和相机指向几乎相同的点, 研究人员发现射出和射入的光子可能出现的范围是相同的。光从表面散射时,会形成一个光子的不断扩散的范围,随着时间的推移,这个范围会形成圆锥形。
 
20世纪初,爱因斯坦的老师 Hermann Minkowski 提出了“光锥”的概念,来描述这一现象。 O'Toole 简化了这种说法,把光子的飞行时间与光锥表面的位置联系了起来,并将该过程称之为“光锥变换”。
 
目前,无人驾驶汽车已经具备了用于直接成像的激光雷达系统,可以想象,有一天,它也可以配备 SPAD,观察街角的情况。
 
Andreas Velten 是2012年, Raskar那篇论文的第一作者,他说道,“不久的将来,会提供手持形式的“激光SPAD”传感器。”他现在在 Wisconsin 大学带领一个“主动成像”小组进行相关研究。
 
Velten 认为,当前的任务是“进入更复杂的场景”和现实场景,“而不是必须非常小心地设置一个白色物体,周围全是黑色空间的场景。相机得能自动对焦。”
 
事物藏于何处?
 
在以上发展的基础上,Freeman 团队的研究员们开始了对被动和主动两种“非视线成像”方法的整合工作。博士后研究员 Christos Thrampoulidis 领导的论文中,介绍了他们的研究成果。
 
如果用激光进行主动成像时,角落里存在着一种已知形状的针点相机,就可以不需要光子的飞行时间信息,直接利用被动成像的方法重建隐藏的场景。 Thrampoulidis  自信地讲道:“我们应该用普通的 CCD 相机就能实现。”
 
有朝一日,这种技术会在搜救领域,自动机器人领域发挥重要的作用。Velten正在与NASA的喷气推进实验室( Jet Propulsion Laboratory )合作,开展一项对月球洞穴内部进行远程成像的项目。
 
与此同时,Raskar及其团队已经使用他们的方法实现了阅读闭合图书的前几页,透过迷雾看到远处一小段区域的功能。
 
此外,除了前面提到的音频重建工作,在健康、安全设备、检测天体的微小运动等方面,Freeman 的运动放大算法也能派上用场。David Hogg 是纽约大学和 Flatiron 协会的天文学家与数据科学家,他认为:“这是一个非常棒的想法,我们必须将它应用在天文学研究中。”  
 
利用“非视线成像”技术,看到屏障后的事物,确实会引发对机密问题的讨论,对于这个问题,Freeman 有一些自己的思考。
 
“这是一个在我职业生涯中思考了无数次的问题。” Freeman 从小就是一个相机迷,他用它拍照,鼓捣里面的零件,沉醉在相机的世界里。
 
刚开始工作时,他从没打算过从事任何与军事或间谍相关的工作。但随着时间的推移,他开始认为,“技术是一种工具,可以在多种场景中使用。如果试图避免任何军事用途,那就永远不会做出任何有用的事了。“他补充说,即使在军事领域,“这种相机也有多种应用方法,比如帮助士兵看到躲避的攻击者,避免被杀死。通常来说,知道物体在哪里总是一件好事。”
 
但是,真正令他兴奋的,并不是技术,而是发现了身边隐藏的现象。 Freeman 认为,“世界上还有很多待发现的事物。”
 
翻译:尚奇奇
审校:刘培源
编辑:王怡蔺
原文:https://www.quantamagazine.org/the-new-science-of-seeing-around-corners-20180830?from=singlemessage
推荐 0