机器人视觉

【编者按】课题组是研究所及各个实验室的基本构成单元,犹如人体的细胞,担负着一项项具体的机能。近日,笔者以陌生的他者身份走进部分课题组,与部分组员、学生分享了他们的科研、学习经历,择其印象深刻的部分记录为文字,编为【走访·课题组】系列,与大家共享,为广大师生、职工提供一个相互了解的视窗。

【走访·课题组】之一——机器人视觉组

“人类视觉的主要功能是什么?或者更一般地讲,人类视觉系统主要是干什么的?我们人人都有两只眼,眼的用处是看东西。我们无时不刻在用眼看东西,但我们主要在看什么?看的目的是什么?或者说为什么要看?似乎这些问题简单得很少有人去思考,但事实上又很少有人能说清楚。”这便是机器人视觉课题组留给大家的思考。接下来的文字,是笔者对机器人视觉课题组的一个走访记录,带着这个问题,让我们一起了解课题组,了解课题组的研究人员。

“给计算机一双慧眼”

自动化大厦北厅的电梯在10层停下,顺着过道走到最北端,转进一间标为“1025”的办公室,三个青年博士正对着电脑敲打着键盘,桌上放着的一本《计算机视觉中的多视图几何》似乎在告诉笔者,这里便是机器人视觉课题组。

机器人视觉课题组隶属于自动化所模式识别国家重点实验室,现有研究员3人(胡占义、吴福朝、吴毅红)、副研究员2人(唐明、董秋雷)、助理研究员2人(高伟、申抒含)、博士研究生20余人,主要研究方向包括从图像重建三维场景、运动物体跟踪和机器人视觉导航等。

由于文科出生,对于理工类知识的欠缺,访谈不得不从课题组的名称开始提问。课题组成员向笔者介绍:“机器视觉也称计算机视觉,通俗地讲,就是使计算机具有‘看’的功能。计算机视觉就是以图像为输入,以模式识别技术为手段,对图像进行分析和理解的学科。最直观地讲,所谓计算机视觉就是用计算机来模拟人的视觉系统,实现人的视觉功能。”

“人与其它动物一样,视觉、听觉、触觉等感官功能的产生,首先在于进化过程中生存的需要。根据美国心理学家Gibson的理论,人的视觉不管有多少用处,但主要功能可概括为适应外界环境和控制自身的运动。看到汽车冲过来,你会赶快回避;看到前面有激流,你不会冒然趟过去。事实上,为了适应外界环境和控制自身的运动,我们的视觉系统需要:能识别物体(可想而知,一个人连亲戚、同事、朋友都不认识,会怎样生活),能判断物体的运动以及确定物体的形状和方位(否则,无法抓取物体)。所以,物体识别、物体定位、物体三维形状恢复和运动分析,就构成了计算机视觉的主要研究内容。”看到笔者满脸的狐疑,课题组成员又做了进一步补充介绍。

“在理论研究上求深,在技术应用上求广”

在问及课题组的研究目标时,课题组组长胡占义说:“课题组的研究目标主要分为两个方面:一方面在计算机视觉理论方法上进行系统深入的研究,力争做出创新性和系统性成果;另一方面致力于研发一套基于图像的快速高精度三维自动重建系统,将三维计算机视觉推向应用”。

三维重建,就是指利用多幅数码图像来恢复物体深度的过程。我们知道,在拍照时照片中物体的深度信息都丢失了。从访谈中得知,胡占义研究员带领的机器视觉组长期以来从事的工作,就是如何给图像的每个像素赋予可靠的深度信息。这种具有深度信息的图像,是众多应用的共性基础技术,可以直接用来确定物体的位置、姿态,计算物体的体积和物体之间的距离,等等。从二维图像到含深度的三维图像,是质的飞跃。

胡占义研究员介绍说,我们给图像赋予可靠深度信息的过程,就像是建筑行业生产高质量砖的过程。高质量的砖可以用在不同的建筑,构建成“姿态各异”的优美形状。但砖绝不等于建筑,绝不能无限夸大。含深度信息的图像可以大大扩充视觉应用范围,但任何成功的应用,绝不仅仅是由于图像具有了深度信息。胡占义形象的说道:“我们主体上是生产‘合格砖’的人,我们致力于把‘砖’做精做好。”

据笔者了解,目前,课题组将中国古代建筑作为载体和研究对象,正在系统研究基于海量无序图像数据的大场景三维重建技术。其原因一方面在于中国古建筑结构复杂,重复纹理丰富,拍摄视点受限,遮挡严重,是测试三维重建技术水平的“典型重建对象”。另一方面在于中国古建筑多为木质结构较易损毁,亟待数字化保护,且这些建筑多分布于高山峻岭之中,相比于三维激光扫描仪等重建设备,基于图像的重建技术更加方便灵活。为此,课题组做了大量的数据采集工作,从课题组的门户网站上,我们可以方便共享到课题组采集的五台、峨眉、九华、普陀中国四大佛教名山和武当、青城两大道教名山的典型古建筑图像数据。如下图所示,图1为课题组开发的三维重建系统对五台山龙泉寺重建的结果,图2为课题组开发的三维重建系统对峨眉山金顶重建的结果。

  

  

(a) 用于五台山龙泉寺三维重建的照片示例

(b) 三维重建结果

图1 五台山龙泉寺重建结果

  

  

(a) 用于对峨眉山金顶三维重建的照片示例

(b) 三维重建结果

图2 峨眉山金顶重建结果

在和课题组成员交谈的过程中,高伟博士讲述了自己参与颐和园石舫三维重建的记忆:为了获取石舫的图像信息,我们跨越了2005年的暑寒两季。第一次去的时候是夏天去的,当时只拍到了石舫靠近堤岸的一面。为了获取另外一些信息,课题组成员于当年冬天又去了一次,在冰面上进行了另一面的图像采集,最终对石舫进行了完整的三维重建(如图3所示)。高伟还介绍说,类似这样出去拍摄采集原始图像的故事还很多,为了获得第一手图像资料,课题组成员常常会跋山涉水,也正是付出了汗水后的收获才更加深刻地体会到科研工作的甘甜。

  

  

(a) 用于对颐和园石舫进行三维重建的照片示例

(b)三维重建结果

图3 颐和园石舫重建结果

据进一步了解,机器人视觉组所开发的三维重建系统的特点与优势为:

全自动三维建模:从底层图像处理到生成最终的三维模型,全部自动实现,无需人工交互。

对图像拍摄无特殊限制:图像拍摄方式无特殊约束或限制,只需手持自由拍摄即可。

三维建模精度与激光扫描精度相当:三维重建精度小于3cm/100米,通过配备更高像素数量的相机和长焦镜头可以实现毫米级重建。

此外,课题组开发的三维重建技术也可用于无人机地形图的自动生成,无需POS或GPS等飞行数据,也无需任何稳定平台。图4为通过140幅宁夏金沙湾地区无人机图片自动生成的该地区三维地形图。由于本三维重建技术具有重建速度快、全自动的特点,因此特别适合于灾害评估,可以在灾害后为各个决策指挥部门提供第一手的三维地形地貌资料,从而有利于做出更加科学的决策。图5为汶川地震后利用400幅北川地区无人机图像自动生成的三维地形图。

图4 金沙湾地区三维地形图全局(上)与局部(下)

图5 北川地区三维地形图

据笔者了解,目前课题组已与国家文物局、国家遥感中心、国家天文台、芬兰Nokia研究院等开展广泛合作,相关技术已经在国防军事、文物保护、矿山安全、灾害评估等诸多领域得到了初步应用。

“我们在潜移默化中学会科研”

由于时间短促,未能对机器视觉课题组的全部研究内容进行深入了解,也未能和全部课题组成员进行深入沟通。课题组基于航拍图像的三维地形生成、航拍图像全景拼接等研究都已经取得了丰硕成果。访谈过程中,学生对老师发自内心的敬重留给了笔者颇深的印象。“胡老师每天早晨6点半到办公室,我们到办公室的时候,看到他去食堂吃早餐时,他已经工作了一个小时了。”即将博士毕业的刘鑫告诉我:“这是四年下来看到的,一年四季基本上没有节假日,周末都是在办公室里。”据课题组成员介绍,不光是胡占义老师这样,在同学们印象中,课题组的老师都是在用自己的勤快刻苦潜移默化地引导大家。

临近访谈结束,笔者又想起胡占义研究员的一篇题为《画虎成猫》的文章,里面有这样的文字记录:“画虎成猫,缺功夫也。研究不到位,缺功夫也。猫到虎,质之差别也。没有好啃的硬骨头,但只有啃下了硬骨头才叫真正啃下了骨头。聪明不足畏,贵在坚持,“几何之内无王道”。路人曰,猫与虎本不可区分也。答曰:虎就是虎,猫就是猫。群猫见虎,一哄而散也。”

严谨、求实,以自身的行为来为大家做表率,这应该正是一个课题组的灵魂所在吧!

【编者按】课题组是研究所及各个实验室的基本构成单元,犹如人体的细胞,担负着一项项具体的机能。近日,笔者以陌生的他者身份走进部分课题组,与部分组员、学生分享了他们的科研、学习经历,择其印象深刻的部分记录为文字,编为【走访·课题组】系列,与大家共享,为广大师生、职工提供一个相互了解的视窗。

【走访·课题组】之一——机器人视觉组

“人类视觉的主要功能是什么?或者更一般地讲,人类视觉系统主要是干什么的?我们人人都有两只眼,眼的用处是看东西。我们无时不刻在用眼看东西,但我们主要在看什么?看的目的是什么?或者说为什么要看?似乎这些问题简单得很少有人去思考,但事实上又很少有人能说清楚。”这便是机器人视觉课题组留给大家的思考。接下来的文字,是笔者对机器人视觉课题组的一个走访记录,带着这个问题,让我们一起了解课题组,了解课题组的研究人员。

“给计算机一双慧眼”

自动化大厦北厅的电梯在10层停下,顺着过道走到最北端,转进一间标为“1025”的办公室,三个青年博士正对着电脑敲打着键盘,桌上放着的一本《计算机视觉中的多视图几何》似乎在告诉笔者,这里便是机器人视觉课题组。

机器人视觉课题组隶属于自动化所模式识别国家重点实验室,现有研究员3人(胡占义、吴福朝、吴毅红)、副研究员2人(唐明、董秋雷)、助理研究员2人(高伟、申抒含)、博士研究生20余人,主要研究方向包括从图像重建三维场景、运动物体跟踪和机器人视觉导航等。

由于文科出生,对于理工类知识的欠缺,访谈不得不从课题组的名称开始提问。课题组成员向笔者介绍:“机器视觉也称计算机视觉,通俗地讲,就是使计算机具有‘看’的功能。计算机视觉就是以图像为输入,以模式识别技术为手段,对图像进行分析和理解的学科。最直观地讲,所谓计算机视觉就是用计算机来模拟人的视觉系统,实现人的视觉功能。”

“人与其它动物一样,视觉、听觉、触觉等感官功能的产生,首先在于进化过程中生存的需要。根据美国心理学家Gibson的理论,人的视觉不管有多少用处,但主要功能可概括为适应外界环境和控制自身的运动。看到汽车冲过来,你会赶快回避;看到前面有激流,你不会冒然趟过去。事实上,为了适应外界环境和控制自身的运动,我们的视觉系统需要:能识别物体(可想而知,一个人连亲戚、同事、朋友都不认识,会怎样生活),能判断物体的运动以及确定物体的形状和方位(否则,无法抓取物体)。所以,物体识别、物体定位、物体三维形状恢复和运动分析,就构成了计算机视觉的主要研究内容。”看到笔者满脸的狐疑,课题组成员又做了进一步补充介绍。

“在理论研究上求深,在技术应用上求广”

在问及课题组的研究目标时,课题组组长胡占义说:“课题组的研究目标主要分为两个方面:一方面在计算机视觉理论方法上进行系统深入的研究,力争做出创新性和系统性成果;另一方面致力于研发一套基于图像的快速高精度三维自动重建系统,将三维计算机视觉推向应用”。

三维重建,就是指利用多幅数码图像来恢复物体深度的过程。我们知道,在拍照时照片中物体的深度信息都丢失了。从访谈中得知,胡占义研究员带领的机器视觉组长期以来从事的工作,就是如何给图像的每个像素赋予可靠的深度信息。这种具有深度信息的图像,是众多应用的共性基础技术,可以直接用来确定物体的位置、姿态,计算物体的体积和物体之间的距离,等等。从二维图像到含深度的三维图像,是质的飞跃。

胡占义研究员介绍说,我们给图像赋予可靠深度信息的过程,就像是建筑行业生产高质量砖的过程。高质量的砖可以用在不同的建筑,构建成“姿态各异”的优美形状。但砖绝不等于建筑,绝不能无限夸大。含深度信息的图像可以大大扩充视觉应用范围,但任何成功的应用,绝不仅仅是由于图像具有了深度信息。胡占义形象的说道:“我们主体上是生产‘合格砖’的人,我们致力于把‘砖’做精做好。”

据笔者了解,目前,课题组将中国古代建筑作为载体和研究对象,正在系统研究基于海量无序图像数据的大场景三维重建技术。其原因一方面在于中国古建筑结构复杂,重复纹理丰富,拍摄视点受限,遮挡严重,是测试三维重建技术水平的“典型重建对象”。另一方面在于中国古建筑多为木质结构较易损毁,亟待数字化保护,且这些建筑多分布于高山峻岭之中,相比于三维激光扫描仪等重建设备,基于图像的重建技术更加方便灵活。为此,课题组做了大量的数据采集工作,从课题组的门户网站上,我们可以方便共享到课题组采集的五台、峨眉、九华、普陀中国四大佛教名山和武当、青城两大道教名山的典型古建筑图像数据。如下图所示,图1为课题组开发的三维重建系统对五台山龙泉寺重建的结果,图2为课题组开发的三维重建系统对峨眉山金顶重建的结果。

  

  

(a) 用于五台山龙泉寺三维重建的照片示例

(b) 三维重建结果

图1 五台山龙泉寺重建结果

  

  

(a) 用于对峨眉山金顶三维重建的照片示例

(b) 三维重建结果

图2 峨眉山金顶重建结果

在和课题组成员交谈的过程中,高伟博士讲述了自己参与颐和园石舫三维重建的记忆:为了获取石舫的图像信息,我们跨越了2005年的暑寒两季。第一次去的时候是夏天去的,当时只拍到了石舫靠近堤岸的一面。为了获取另外一些信息,课题组成员于当年冬天又去了一次,在冰面上进行了另一面的图像采集,最终对石舫进行了完整的三维重建(如图3所示)。高伟还介绍说,类似这样出去拍摄采集原始图像的故事还很多,为了获得第一手图像资料,课题组成员常常会跋山涉水,也正是付出了汗水后的收获才更加深刻地体会到科研工作的甘甜。

  

  

(a) 用于对颐和园石舫进行三维重建的照片示例

(b)三维重建结果

图3 颐和园石舫重建结果

据进一步了解,机器人视觉组所开发的三维重建系统的特点与优势为:

全自动三维建模:从底层图像处理到生成最终的三维模型,全部自动实现,无需人工交互。

对图像拍摄无特殊限制:图像拍摄方式无特殊约束或限制,只需手持自由拍摄即可。

三维建模精度与激光扫描精度相当:三维重建精度小于3cm/100米,通过配备更高像素数量的相机和长焦镜头可以实现毫米级重建。

此外,课题组开发的三维重建技术也可用于无人机地形图的自动生成,无需POS或GPS等飞行数据,也无需任何稳定平台。图4为通过140幅宁夏金沙湾地区无人机图片自动生成的该地区三维地形图。由于本三维重建技术具有重建速度快、全自动的特点,因此特别适合于灾害评估,可以在灾害后为各个决策指挥部门提供第一手的三维地形地貌资料,从而有利于做出更加科学的决策。图5为汶川地震后利用400幅北川地区无人机图像自动生成的三维地形图。

图4 金沙湾地区三维地形图全局(上)与局部(下)

图5 北川地区三维地形图

据笔者了解,目前课题组已与国家文物局、国家遥感中心、国家天文台、芬兰Nokia研究院等开展广泛合作,相关技术已经在国防军事、文物保护、矿山安全、灾害评估等诸多领域得到了初步应用。

“我们在潜移默化中学会科研”

由于时间短促,未能对机器视觉课题组的全部研究内容进行深入了解,也未能和全部课题组成员进行深入沟通。课题组基于航拍图像的三维地形生成、航拍图像全景拼接等研究都已经取得了丰硕成果。访谈过程中,学生对老师发自内心的敬重留给了笔者颇深的印象。“胡老师每天早晨6点半到办公室,我们到办公室的时候,看到他去食堂吃早餐时,他已经工作了一个小时了。”即将博士毕业的刘鑫告诉我:“这是四年下来看到的,一年四季基本上没有节假日,周末都是在办公室里。”据课题组成员介绍,不光是胡占义老师这样,在同学们印象中,课题组的老师都是在用自己的勤快刻苦潜移默化地引导大家。

临近访谈结束,笔者又想起胡占义研究员的一篇题为《画虎成猫》的文章,里面有这样的文字记录:“画虎成猫,缺功夫也。研究不到位,缺功夫也。猫到虎,质之差别也。没有好啃的硬骨头,但只有啃下了硬骨头才叫真正啃下了骨头。聪明不足畏,贵在坚持,“几何之内无王道”。路人曰,猫与虎本不可区分也。答曰:虎就是虎,猫就是猫。群猫见虎,一哄而散也。”

严谨、求实,以自身的行为来为大家做表率,这应该正是一个课题组的灵魂所在吧!


相关文章

  • 机器视觉行业现状及发展趋势分析
  • 中国机器视觉行业现状调研与未来前景趋 势报告(2015年) 报告编号:15A8560 行业市场研究属于企业战略研究范畴,作为当前应用最为广泛的咨询服务,其研究成果以报告形式呈现,通常包含以下内容: 一份专业的行业研究报告,注重指导企业或投资 ...查看


  • 机器人视觉传感技术及应用doc
  • 机器人视觉传感技术及应用 摘要:机器人视觉技术是指机器人工作时通过视觉传感器对环境物体获取视觉信息,让机器人识别物体来进行各种工作.本文介绍了机器人技术中所常用的视觉传感器的种类.结构.原理和功能.介绍了弧焊机器人视觉传感技术较为前沿的一些 ...查看


  • 机器人毕业设计
  • 目录 摘要及关键词............................................................................................................... ...查看


  • 机器视觉技术及其应用概况
  • 本栏目责任编辑:李桂瑾 人工智能及识别技术 机器视觉技术及其应用概况 陈发东,张晓芳,赵寰宇,张涛,于国英 (河北金牛能源股份有限公司玻纤分公司,河北邢台054001) 摘要:介绍了机器视觉的系统组成及工作原理.相对于人类视觉优势所在,阐述 ...查看


  • 机器视觉文献综述
  • 一.机器视觉与图像采集的研究的意义 "作为一项关键性的自动化技术,机器视觉在发展中国家中对经济的现代化非常重要.为了在世界市场中进行竞争,发展中经济不能无限期的依赖于廉价劳动力." AIA市场分析员Kellett 说.同 ...查看


  • 视觉发展趋势
  • 未来机器视觉发展趋势 机器视觉自起步发展到现在,已有25年的发展历史.应该说机器视觉作为一种应用系统,其功能特点是随着工业自动化的发展而逐渐完善和发展的. 目前全球整个视觉市场总量在85亿美元以上,是按照每年8.8%的增长速度增长的.而在中 ...查看


  • 视觉传感器
  • 现代检测技术论文 --视觉传感器 班级: 姓名: 学号: 机器人视觉一般指与之配合操作的工业视觉系统,把视觉系统引入机器人以后,可以大大地扩大机器人的使用性能,帮助机器人在完成指定任务的过程中,具有更大的适应性,机器人视觉除要求价格经济外, ...查看


  • 结合机器视觉的采摘机械手的定位仿真研究
  • ComputerEngineeringandApplications计算机工程与应用 2011,47(24) 139 结合机器视觉的采摘机械手的定位仿真研究 熊俊涛"2,邹湘军1,邹海鑫1,陈荫乐1,卢俊1 ⅪONGJuntao& ...查看


  • 码垛机器人技术进展及方案设计
  • 研 究 生 课 程 论 文 封 面 课程名称: 机器人技术及应用 论文题目: 码垛机器人研究进展及方案设计 学生姓名: 任课教师: 注:此表为每个学生的论文封面,请任课教师填写分项分值 摘要:本文先综述了码垛机器人的发展现状和关键技术,在此 ...查看


热门内容