机器人视觉

【编者按】课题组是研究所及各个实验室的基本构成单元，犹如人体的细胞，担负着一项项具体的机能。近日，笔者以陌生的他者身份走进部分课题组，与部分组员、学生分享了他们的科研、学习经历，择其印象深刻的部分记录为文字，编为【走访·课题组】系列，与大家共享，为广大师生、职工提供一个相互了解的视窗。

【走访·课题组】之一——机器人视觉组

“人类视觉的主要功能是什么？或者更一般地讲，人类视觉系统主要是干什么的？我们人人都有两只眼，眼的用处是看东西。我们无时不刻在用眼看东西，但我们主要在看什么？看的目的是什么？或者说为什么要看？似乎这些问题简单得很少有人去思考，但事实上又很少有人能说清楚。”这便是机器人视觉课题组留给大家的思考。接下来的文字，是笔者对机器人视觉课题组的一个走访记录，带着这个问题，让我们一起了解课题组，了解课题组的研究人员。

“给计算机一双慧眼”

自动化大厦北厅的电梯在10层停下，顺着过道走到最北端，转进一间标为“1025”的办公室，三个青年博士正对着电脑敲打着键盘，桌上放着的一本《计算机视觉中的多视图几何》似乎在告诉笔者，这里便是机器人视觉课题组。

机器人视觉课题组隶属于自动化所模式识别国家重点实验室，现有研究员3人（胡占义、吴福朝、吴毅红）、副研究员2人（唐明、董秋雷）、助理研究员2人（高伟、申抒含）、博士研究生20余人，主要研究方向包括从图像重建三维场景、运动物体跟踪和机器人视觉导航等。

由于文科出生，对于理工类知识的欠缺，访谈不得不从课题组的名称开始提问。课题组成员向笔者介绍：“机器视觉也称计算机视觉，通俗地讲，就是使计算机具有‘看’的功能。计算机视觉就是以图像为输入，以模式识别技术为手段，对图像进行分析和理解的学科。最直观地讲，所谓计算机视觉就是用计算机来模拟人的视觉系统，实现人的视觉功能。”

“人与其它动物一样，视觉、听觉、触觉等感官功能的产生，首先在于进化过程中生存的需要。根据美国心理学家Gibson的理论，人的视觉不管有多少用处，但主要功能可概括为适应外界环境和控制自身的运动。看到汽车冲过来，你会赶快回避；看到前面有激流，你不会冒然趟过去。事实上，为了适应外界环境和控制自身的运动，我们的视觉系统需要：能识别物体（可想而知，一个人连亲戚、同事、朋友都不认识，会怎样生活），能判断物体的运动以及确定物体的形状和方位（否则，无法抓取物体）。所以，物体识别、物体定位、物体三维形状恢复和运动分析，就构成了计算机视觉的主要研究内容。”看到笔者满脸的狐疑，课题组成员又做了进一步补充介绍。

“在理论研究上求深，在技术应用上求广”

在问及课题组的研究目标时，课题组组长胡占义说：“课题组的研究目标主要分为两个方面：一方面在计算机视觉理论方法上进行系统深入的研究，力争做出创新性和系统性成果；另一方面致力于研发一套基于图像的快速高精度三维自动重建系统，将三维计算机视觉推向应用”。

三维重建，就是指利用多幅数码图像来恢复物体深度的过程。我们知道，在拍照时照片中物体的深度信息都丢失了。从访谈中得知，胡占义研究员带领的机器视觉组长期以来从事的工作，就是如何给图像的每个像素赋予可靠的深度信息。这种具有深度信息的图像，是众多应用的共性基础技术，可以直接用来确定物体的位置、姿态，计算物体的体积和物体之间的距离，等等。从二维图像到含深度的三维图像，是质的飞跃。

胡占义研究员介绍说，我们给图像赋予可靠深度信息的过程，就像是建筑行业生产高质量砖的过程。高质量的砖可以用在不同的建筑，构建成“姿态各异”的优美形状。但砖绝不等于建筑，绝不能无限夸大。含深度信息的图像可以大大扩充视觉应用范围，但任何成功的应用，绝不仅仅是由于图像具有了深度信息。胡占义形象的说道：“我们主体上是生产‘合格砖’的人，我们致力于把‘砖’做精做好。”

据笔者了解，目前，课题组将中国古代建筑作为载体和研究对象，正在系统研究基于海量无序图像数据的大场景三维重建技术。其原因一方面在于中国古建筑结构复杂，重复纹理丰富，拍摄视点受限，遮挡严重，是测试三维重建技术水平的“典型重建对象”。另一方面在于中国古建筑多为木质结构较易损毁，亟待数字化保护，且这些建筑多分布于高山峻岭之中，相比于三维激光扫描仪等重建设备，基于图像的重建技术更加方便灵活。为此，课题组做了大量的数据采集工作，从课题组的门户网站上，我们可以方便共享到课题组采集的五台、峨眉、九华、普陀中国四大佛教名山和武当、青城两大道教名山的典型古建筑图像数据。如下图所示，图1为课题组开发的三维重建系统对五台山龙泉寺重建的结果，图2为课题组开发的三维重建系统对峨眉山金顶重建的结果。

(a) 用于五台山龙泉寺三维重建的照片示例

(b) 三维重建结果

图1 五台山龙泉寺重建结果

(a) 用于对峨眉山金顶三维重建的照片示例

(b) 三维重建结果

图2 峨眉山金顶重建结果

在和课题组成员交谈的过程中，高伟博士讲述了自己参与颐和园石舫三维重建的记忆：为了获取石舫的图像信息，我们跨越了2005年的暑寒两季。第一次去的时候是夏天去的，当时只拍到了石舫靠近堤岸的一面。为了获取另外一些信息，课题组成员于当年冬天又去了一次，在冰面上进行了另一面的图像采集，最终对石舫进行了完整的三维重建（如图3所示）。高伟还介绍说，类似这样出去拍摄采集原始图像的故事还很多，为了获得第一手图像资料，课题组成员常常会跋山涉水，也正是付出了汗水后的收获才更加深刻地体会到科研工作的甘甜。

(a) 用于对颐和园石舫进行三维重建的照片示例

（b）三维重建结果

图3 颐和园石舫重建结果

据进一步了解，机器人视觉组所开发的三维重建系统的特点与优势为：

全自动三维建模：从底层图像处理到生成最终的三维模型，全部自动实现，无需人工交互。

对图像拍摄无特殊限制：图像拍摄方式无特殊约束或限制，只需手持自由拍摄即可。

三维建模精度与激光扫描精度相当：三维重建精度小于3cm/100米，通过配备更高像素数量的相机和长焦镜头可以实现毫米级重建。

此外，课题组开发的三维重建技术也可用于无人机地形图的自动生成，无需POS或GPS等飞行数据，也无需任何稳定平台。图4为通过140幅宁夏金沙湾地区无人机图片自动生成的该地区三维地形图。由于本三维重建技术具有重建速度快、全自动的特点，因此特别适合于灾害评估，可以在灾害后为各个决策指挥部门提供第一手的三维地形地貌资料，从而有利于做出更加科学的决策。图5为汶川地震后利用400幅北川地区无人机图像自动生成的三维地形图。

图4 金沙湾地区三维地形图全局（上）与局部（下）

图5 北川地区三维地形图

据笔者了解，目前课题组已与国家文物局、国家遥感中心、国家天文台、芬兰Nokia研究院等开展广泛合作，相关技术已经在国防军事、文物保护、矿山安全、灾害评估等诸多领域得到了初步应用。

“我们在潜移默化中学会科研”

由于时间短促，未能对机器视觉课题组的全部研究内容进行深入了解，也未能和全部课题组成员进行深入沟通。课题组基于航拍图像的三维地形生成、航拍图像全景拼接等研究都已经取得了丰硕成果。访谈过程中，学生对老师发自内心的敬重留给了笔者颇深的印象。“胡老师每天早晨6点半到办公室，我们到办公室的时候，看到他去食堂吃早餐时，他已经工作了一个小时了。”即将博士毕业的刘鑫告诉我：“这是四年下来看到的，一年四季基本上没有节假日，周末都是在办公室里。”据课题组成员介绍，不光是胡占义老师这样，在同学们印象中，课题组的老师都是在用自己的勤快刻苦潜移默化地引导大家。

临近访谈结束，笔者又想起胡占义研究员的一篇题为《画虎成猫》的文章，里面有这样的文字记录：“画虎成猫，缺功夫也。研究不到位，缺功夫也。猫到虎，质之差别也。没有好啃的硬骨头，但只有啃下了硬骨头才叫真正啃下了骨头。聪明不足畏，贵在坚持，“几何之内无王道”。路人曰，猫与虎本不可区分也。答曰：虎就是虎，猫就是猫。群猫见虎，一哄而散也。”

严谨、求实，以自身的行为来为大家做表率，这应该正是一个课题组的灵魂所在吧！

【走访·课题组】之一——机器人视觉组

“给计算机一双慧眼”

“在理论研究上求深，在技术应用上求广”

(a) 用于五台山龙泉寺三维重建的照片示例

(b) 三维重建结果

图1 五台山龙泉寺重建结果

(a) 用于对峨眉山金顶三维重建的照片示例

(b) 三维重建结果

图2 峨眉山金顶重建结果

(a) 用于对颐和园石舫进行三维重建的照片示例

（b）三维重建结果

图3 颐和园石舫重建结果

据进一步了解，机器人视觉组所开发的三维重建系统的特点与优势为：

全自动三维建模：从底层图像处理到生成最终的三维模型，全部自动实现，无需人工交互。

对图像拍摄无特殊限制：图像拍摄方式无特殊约束或限制，只需手持自由拍摄即可。

三维建模精度与激光扫描精度相当：三维重建精度小于3cm/100米，通过配备更高像素数量的相机和长焦镜头可以实现毫米级重建。

图4 金沙湾地区三维地形图全局（上）与局部（下）

图5 北川地区三维地形图

“我们在潜移默化中学会科研”

严谨、求实，以自身的行为来为大家做表率，这应该正是一个课题组的灵魂所在吧！

相关文章