视觉认知计算模型综述_黄凯奇

第26卷第10期2013年10月模式识别与人工智能

PＲ＆AI Vol．26Oct．No．102013

视觉认知计算模型综述

黄凯奇

谭铁牛

（中国科学院自动化研究所模式识别国家重点实验室与智能感知与计算研究中心北京100080）

摘要视觉认知计算模型作为联系视觉认知和信息计算的有效手段，其研究涉及到认知科学、信息科学等多个

交叉学科，具有复杂性和多样性等特点．为能更好地把握其发展规律，文中从视觉计算角度系统总结视觉认知计算模型，以其两个主要来源为主线分别从生物视觉机制和视觉计算理论回顾视觉认知计算模型的发展．根据其研究的特点，对视觉认知计算模型的发展做出一定评述，并指出视觉认知计算模型的发展必将对计算视觉理论和生物视觉机制产生深远影响．关键词

视觉认知，计算模型，生物视觉机制，计算视觉理论

TP 391

中图法分类号

Ｒeviewon Computational Model for Vision

HUANG Kai-Qi ，TAN Tie-Niu

（National Laboratory of Pattern Ｒecognitionand Centre for Ｒesearchon Intelligent Perception and Computing ，

Institute of Automation ，Chinese Academy of Sciences ，Beijing 100080）

ABSTＲACT

The computational models for vision have the characteristics of complex and diversity ，as they come from many subjects such as cognition science and information science．In this paper ，the computational models for vision are investigated from the biological visual mechanism and computational vision theory systematically．Some points of view about the prospects of the computational model are presented．The development of the computational model will build the bridge for the computational vision and biological visual mechanism．Key Words

Visual Cognition ，Computational Model ，Biological Visual Mechanism ，Computational Vision Theory

1引言

计算机视觉与人类视觉仍存在较大差异．科学家常

“过马路”以这个简单的视觉任务为例来说明这一点．现代高速计算机的计算能力已达到相当惊人的程度，但计算机视觉系统却无法指导过马路．很多研究者都将注意力集中在传统的基于统计学习等方法

计算机视觉的中心任务是采用计算机对图像进

行理解和分析来获取有效信息．图像包括单幅图像、多幅图像和图像序列（即视频图像）．但是，目前的

*国家自然科学基金项目（No．61175007）、国家973计划项目（No．2012CB316302）资助收稿日期：2012－09－03；修回日期：2013－05－20

1977年生，mail ：作者简介黄凯奇（通讯作者），男，研究员，博士生导师，主要研究方向为计算机视觉、视觉认知计算等．E-kqhuang@nlpr．ia．ac．cn．谭铁牛，1964年生，男，研究员，博士生导师，主要研究方向为计算机视觉、生物特征识别．

上，却忽略一个事实：人类视觉系统大大超过了当前最优秀的基于统计学习等传统方法的视觉系统．特别在处理一些恶劣环境下的视觉信息时，传统方法

如何从视觉认知的角度去研遇到较大困难．鉴于此，

究和设计计算机视觉算法成为一项迫切而又富有挑

战性的任务．

认知科学及其信息处理方面的研究被列入国际人类前沿科学计划（Human Frontier Science Pro-gram ，HFSP ）中，被国际上看成是和美国的战略防御计划、欧洲的尤里卡计划（Eureka Plan ）鼎足而立的3个重要规划．国外几乎所有的一流大学和研究所都建立相关研究机构进行视觉认知方法的研究，如美国麻省理工学院（MIT ）的脑认知科学系人工智能实验室，美国加州理工学院（Caltech ）的计算与神经系统组、德国马普协会等．将认知应用于视觉分析使他们取得优于传统方法的成绩．

国内的主要研究机构也分别从神经生物学、认知心理学、机器学习、模式识别等方面对此开展研究，这些研究机构包括中国科学院生物物理研究所、北京师范大学、北京大学、清华大学、中国科学院自动化研究所、复旦大学、西安交通大学等．2008年起，在国家自然科学基金委员会的支持下，国内研究，机构开展认知重大计划“视听觉信息的认知计算”并将其结合智能车的应用，于2009年 2011年组“中国智能车未来挑战赛”，织3次从而取得长足进展．国家973计划从20世纪90年代就开始支持相其研究重点也从认知、知觉成像机理逐步发关研究，

展到海量非结构化数据、可视媒体的计算模型、视频编码等，也取得一些在国际上有一定影响力的成绩．

长期以来，人们对于认知过程的理解基本上还停留在直觉上，没有形成准确的科学定义．而与此同时，信息科学尤其是计算机科学正面临着高速发展中信息高速获取和海量异构数据等的挑战．借鉴人类处理复杂信息的认知机理去面对挑战是一种必然趋势，同

也能为认知科时借助于计算机科学强大的计算能力，

学的发展提供系统科学的计算依据．视觉认知的计算

模型作为这一有效手段应运而生，并随着认知科学和计算机科学的发展受到越来越多的重视．

视觉认知的生物模型，近年来在相关国际期刊都有大量最新研究成果．而对于视觉计算模型，从2005年开始在CVPＲ、ICCV 、ECCV 等计算机视觉会议上也都有相关最新研究成果，包括纯计算模［1］［2］型、决策计算模型等．本文并不试图全面介绍所有的视觉计算模型，主要回顾一些具有一定历史的模型，根据研究的感受对视觉认知计算模型发展

的一些理解（目前视觉认知的研究不再仅围绕初级

视皮层的生物模型和计算模型研究，涉及到短时记忆、学习、整合加工等更深层次的研究，本文仅针对个人理解提出生物模型和计算模型相互影响和结合的一些看法），归纳其发展的两条主线：生物视觉机制（以生物学视觉分析为基础的视觉研究往往侧重视觉皮层细胞和神经元的感知过程，目前对生物学本认知过程的理解还没有达到人类所期望的高度，文也仅是对部分有代表性的工作进行归纳）和视觉计算理论，从这两方面对较典型的计算模型的发展进行相关介绍，最后给出对视觉认知计算模型的一些思考．

2视觉认知计算模型

视觉认知计算模型可称为可计算的视觉认知模

其目的是在人和计算机之间构建桥梁，让计算型，

机能完成人类大脑所完成的一些工作．人类具有最为鲁棒的视觉系统，能在各种复杂环境下完成视觉而计算机具备较强的计算能力，其计算能识别任务，

力已达到千万亿次．视觉认知计算模型就是通过对人类视觉认知机理的了解，完成视觉机理的数学建模并通过计算机得到实现，从而实现高效、鲁棒的智能大脑系统．视觉认知计算模型的研究作为典型的交叉性领域，和计算机视觉、认知科学及模式识别等领域的进展息息相关，也是目前这些领域的研究热

人类视觉系统的工作机理还没有点．由于迄今为止，

完全弄清楚，这一研究还是任重道远．

3．1

视觉认知计算模型的发展

视觉认知计算模型和计算机视觉

虽然认知的计算方法可追溯到20世纪40年代

50年代图灵的人工智能和香农的信维纳的控制论、

息论，但谈到视觉认知计算模型得到重视和发展就

不得不提到计算机视觉的研究．早期的计算机视觉研究主要集中于积木世界的理解及与此有关的底层

［3］

视觉信息处理．但由于缺乏底层视觉信息处理提这一研究遇到瓶颈．到70年代末，美取的理论指导，

国麻省理工学院（MIT ）人工智能实验室的Marr 立足于计算机科学，总结心理物理学、神经生理学、临床神经病学等在视觉研究上已取得成果，在此基础

［4］上，提出视觉计算理论，为机理的研究提出理论

计算算法、计算机制三个层次指导．他从计算理论、

对视觉信息处理任务进行研究和区分，并对视觉任务中的表象描述定义为一个三维重建的过程．这一描述受到以美国马里兰大学计算机视觉研究实验室

并引发的Aloimonos 为首的目的主义学派的置疑，90年代计算机视觉领域多位学者的大讨论［5］．虽然最后对于计算机视觉的目的是否是三维重建没有明

确的结论，但进一步明确神经生理学等认知科学对计算机视觉发展的重要性，从视觉认知出发去研究计算机视觉这一观点逐步被普遍接受．此后，出现越来越多关于视觉认知的计算模型作为联系视觉认知和计算机视觉的桥梁的研究．

总体来说，视觉认知的计算模型应满足模拟人类认知特性的要求同时还强调可计算性．因此，其来源主要可归纳为两大类：基于生物视觉机制和基于视觉计算理论．图1归纳出计算模型和生物视觉机制与视觉计算理论的关系，可看出生物视觉机制的发展既能直接用于建立视觉计算模型，同时也推动视觉计算理论的发展，具有重要地位．本文将分别从生物视觉机制和视觉计算理论方面介绍视觉计算模型的发展

．

算理论的产生是在多个生物视觉机制的基础之上总

图1中的计算视觉理论和生物视觉结得出的．因此，

机制之间并不是都有一一对应的关系．以Marr 视觉作为视觉计算理论的奠基性工作，其计算理论为例，

形成也是在许多生物视觉机制的基础上才提出并得

以完善的．而一些重要的生物视觉机理的工作如颜色视觉理论就仅提出很多有益的模型，而没有上升到计算理论的高度．视觉计算理论对生物视觉机理的研究具有一定的机理验证作用，但本文主要是从思想创新的角度出发，因此在图中并没有给出计算视觉理论对于生物视觉机理的作用关系．

3．2基于生物视觉机制的视觉认知计算模型生物视觉机制主要通过神经生理学和解剖学等学科的发展，对生物视觉系统的机理进行研究．生物视觉机制的研究成果是视觉研究的重要来源．早期的学者根据生物视觉系统的形成过程，将视觉信息处理的一般模型表示如图2所示，分别可看成视网膜阶段、早期视觉处理和高层视觉处理，这一框架在许多机器模型中得到应用

［6］

．

图2Fig．2

视觉信息处理的一般框架

［6］

Framework for visual information processing

本文中进一步根据视觉信息处理从人眼到人脑这一处理过程把目前的模型大致分为外周脑模型、脑皮层模型及知觉层模型．外周脑模型主要是模拟视觉信息在视网膜（Ｒetina）上的运行机理及视网膜

图1Fig．1

计算模型和生物视觉机制与视觉计算理论的关系图Ｒelationshipamong computational model ，biological visual mechanism and computational vision theory

和皮层之间的信息处理进行建模

［7］

．视网膜是位于

视觉系统最前端的具备感光功能并能对接收到的刺激信号进行初步处理的组织．视网膜包含大量的光感受器细胞，是外界视觉信息在人眼成像的主要部位，并对亮度、颜色、形状、运动等信息进行初步感知和处理．对人眼的研究主要集中在对Ｒetina皮层的研究．根据对视网膜机理的研究结果，一些视觉理论和模型被提出来，如基于视网膜中的视杆和视锥细胞的特性，两种最为常见颜色视觉模型（三刺激模型和对立色模型）

［8］

图1中给出概括一定关系的框图，表达机制－理

论－模型三者之间的关系．在三者中，机制是最为重要的创新源泉，生物视觉机制对于视觉计算理论有重要的促进作用．生物视觉机制的发现是计算理论产生的源泉，只有生物视觉机制新的发现，才能促进视觉计算理论的发展，有新的生物视觉机制的发现，一般会产生新的视觉计算模型．但并不是有了生物视觉机制的新发现就一定会产生新的视觉计算理论，视觉计

被提出并被广泛使用．Weber 等

发现，眼睛对光强的响应是非线性的，并且在一定范

围内，物体的亮度和背景的差别的比值是相对不变的，这使得视网膜细胞对外界光强具有较好的自适应特性．根据这一特性，图像的单色对数模型和彩色

［9］

人眼对于对比度敏感而不是对数模型被提出来，

对于绝对亮度敏感的特性也被用于建立对比度模型［10］

实现对目标的检测．19世纪马赫发现视觉侧抑制效应（Lateral Inhibition ），并提出有关视网膜神经元相互作用原理．在视觉信号的预处理和传输阶段，侧抑制原理被认为起着关键性的作用，基于这一原

［11］

理的模型常被用于图像增强．

Land 在颜色进一步结合视网膜和皮层的研究，

恒常性基础上提出模拟人类亮度和颜色感知的视觉

——Ｒetinex模型．这一模型可在动态范围压缩、模型—

边缘增强和颜色恒常三方面达到平衡，可对各类图像

［12－13］

．进行自适应增强，在很多方面得到广泛应用

Zaghloul 等［14］提出一种模拟视网膜细胞机理的数学模型．该模型具有带通和时空滤波的功能，可实

现亮度调节及对比度调节，他们在CMOS 电路上实现这一模型，并系统地进行分析．

脑皮层是视觉信息处理的中心区域，其主要工作由视觉皮层（Visual Cortex ）来完成．人类的视觉皮层包括初级视皮层（V1）及纹外皮层（V2 V5等）．初级视皮层也是目前大脑皮层中被研究得最透彻的区域．Hubel 等在20世纪50年代末首次开展对视皮层细胞的研究，为生物视觉系统方面做出开拓性工作．他们在六七十年代提出视觉感受野（ＲeceptiveBarlowd 等提出“利Field ）理论［15］．基于这一理论，

用感知数据的冗余”进行编码的理论，之后Michison 等

［16］

Huang 等［24］结合彩色图像的感知特性扩展这一模型用于彩色图像的增强和评估．Lowe 根据大脑皮层

中下颞叶皮质（Inferior Temporal ，IT ）对于视觉刺激提出一种面向物体识别的旋转和尺度响应的特性，

不变的计算模型（Scale Invariant Feature Transform ，SIFT ）．这一模型之后经过改进，成为模式识别中用于局部特征提取算法的经典模型．

Poggio 等［26］在1999年首次建立完整的视觉处理模型HMAX （Hierarchical Model and X ），这是一个从生物学的角度上模拟的多层次模型．2007年，Serre 等［27］通过引入特征字典的学习过程，构造高层次的仿真生物视觉模型（Biological Inspired Mod-el ，BIM ），并在当时取得优于统计模式识别模型的结果，引起计算机视觉和生物视觉界的关注．这一模型通过改进在目标识别、场景分类等得到广泛应用

［28－29］

．更多的关于外周脑模型、脑皮层模型可参

［30］

见Bednar 等的工作．

视知觉是更为高层的视觉机理的描述，涉及到的现象更为复杂，如错觉现象，图像的二义性等，难以解释．目前大部分的解释还是存在于哲学家和心理学家所做的一些假想，至今还没有非常系统的认知模型．如格式塔学派，强调人的视觉系统具有在对景物中的物体一无所知的情况下从景物的图像中得到相对的聚集（Grouping ）和结构的能力，这种能力被称为感知组织．以此为基础，一些学者在图像的组织方面尤其是图像分割方面提出相应的数学模型，．另一种值得一提的知觉层研［33］

究方面的工作是Gibson 提出的生态知觉理论，他取得一定效果

Gibson 试图解决总体的视知觉问题，在这一理论中，认为知觉不是对视网膜上降采样图像的解释，而是通过光学排列和流动直接和真实的体验．基于这一理论，光流模型（Optical Flow ）被用于提出描述图像灰度模式的表面运动，即获取运动场．这一模型因为不需要预先知道场景的信息同时能获取丰富的运动和结构等信息，使得光流在计算机视觉、图像处理等

［34］得到较多应用．

3．3基于视觉计算理论的视觉认知计算模型

［31－32］

明确提出稀疏编码理论（Sparse Coding ），数据

经稀疏编码后仅有少数分量同时处于明显激活状

态，具有存储能力大和联想记忆能力等特点，近年来受到较大关注

［17－18］

．Ｒodieck等在1965年进一步指

出这不同感受野的直径方向上的截面对光信号的响应曲线都具有高斯分布的性质，彼此方向相反．他们称为高斯采用两个高斯函数的差来表示这种特性，

［19］

，差模型（Difference of Gaussians ，DOG ）这一模型作为滤波器模型已成功应用在图像预处理中．

1980年Daugman 使用二维Gabor 函数模拟视皮层汪云九等也提出用一中细胞感受野的空间性质，

族广义Gabor 函数描述视觉系统各层次上感受野时空性质的模型．Gabor 滤波器已在模式识别尤其是

［21］

生物特征识别方面得到广泛应用．1968年Campell 等［22］进一步研究发现视觉系统具有空间频率通道，这一成果被Pattanaik 等在1998年用于真实感图形显示（Image Display ），取得较佳效果，

［23］

［20］

视觉认知计算模型的另外一个重要的起源是视

即从计算机信息处理去描述视觉形成觉计算理论，

过程．相比于具有悠久历史、纷繁复杂的生物视觉机

理的研究，视觉计算理论的研究主要从20世纪60年代开始，而且相对集中．主要的视觉计算理论可分为以Marr 理论为主的局部优先和拓扑理论为主的全局优先的理论．目前大部分的计算模型仍基于主流的Marr 视觉计算理论，包括三维物体重建模

［35］［36］型，双目立体视觉模型等．1987年Bieder-man ［37］在Marr 理论的基础上提出成分识别理论

分类模型，得到吻合视觉心理学的结果．

（Ｒecognitionby Component Theory ）．该理论认为通

就可过把复杂对象的结构拆分为简单的部件形状，Li 等发展进行视觉识别．在这一理论的指导下，

词袋模型（Bag of Word ）用于物体识别，成为目前物体识别中具有代表性的工作之一．1980年Treisman

［39］

和Gelade 等提出特征整合理论（Feature Integra-tion ），认为视觉处理是一个以自下而上的加工为主要特征的、具有局部交互作用的过程．在这一理论的

［40］

基础上，Koch 等于1985年提出第1个视觉注意

1998年Itti 等［41］提出适用于自然图像的机制模型，

［38］

4对视觉认知计算模型的思考

视觉认知计算模型是联系视觉认知科学和计算

机科学的桥梁和纽带．一方面，视觉认知机理的研究模型建立等提供良好的为计算机科学的计算仿真、生理学和心理学参照，对视觉机理规律的认识为计计算模型算模型的建立提供努力的方向．另一方面，

也为视觉机理的正确性和有效性提供验证的平台，能有力推动视觉认知机理的发展．总之，视觉认知计算模型的目的是借鉴人类视觉机理和相关学科的成果，建立新的数学模型，从而有效提高计算机对信息社会的理解能力和计算效率，因此这一研究具有以下特点．

1）视觉认知计算模型的研究是交叉性的．这一

视觉是认知科学的一部分，其研究涉及点很好理解，

到生理物理学、神经认知科学，又涉及到计算机科

还包括数学及模式识别等相关建模的科学，因此学，

对这一领域的研究需要宽广的知识面，同时需要多个学科的学者能共同参与对这一问题进行探讨．2）视觉认知计算模型的研究是开放性的．这一研究既然是交叉性学科，那么必然不同领域的学者从不同学科的角度对这一领域进行研究，同时研究的特点和结论也会有差异．这一点在历史上的视觉研究中得到体现，如颜色视觉模型既有三色模型又有对立色模型．但总的来看，两者都是对机理在不同角度和程度上的阐释，具有互补性．

3）视觉认知计算模型的研究是发展性的．任何定理或理论都是基于一定的假设情况的，这一限制对于视觉认知计算模型的研究尤为突出．人类认知

对视觉认知计的过程就是在不断纠正的过程．同样，算模型的研究也是一个不断完善和发展的过程．视觉认知计算模型的研究在国外开展较早，许

多学者从不同领域对此开展研究，也取得较大进展，近年来这一研究也趋向于多种学科的交叉融合．相比国外，我国在这方面的研究起步较晚，大部分的研究还是集中在心理学等认知科学．目前我国学者在神经心理学等认知科学方面已取得一些有国际影响力的工作，在视觉计算理论方面也有独到的见解，但是在视觉计算模型的代表性的研究工作还是较少．这方面的研究涉及到多个交叉学科的发展，因此在人类视觉的生理机制还尚未得到解决情况下，这一领域的研究需要注意两点问题．

1）避免大而全的模型．让计算机来模拟人类的

高斯金字塔模型，郑南宁等模型．

［42］

提出分层的注意视觉

［43］

McClelland 等提出相互在19世纪80年代，

［16］

作用激活理论，他们认为知觉系统是由许多加工单元组成的．这些节点（Node ）是最小的加工单元．每个节点通过兴奋和抑制两种连接方式与大量其它节点联结在一起．每个节点在某一时间都有一个激活值（Activation Value ），它既受到直接输入的影响，也受到相邻各节点的兴奋或抑制的影响．这些同层次和不同层次的节点之间兴奋和抑制的各种关系，构成异常复杂的网络．

也成为在语言学中风靡的连

接主义理论的代表性理论．在这一理论的指导下，BP 神经网络（Back Propagation Neural Networks ）模［47］

成为应用最型被提出并得到学术界的高度重视，

为广泛的神经网络模型之一，在文字识别等领域得

［45］

到成功应用．在假设神经网络是多层的基础上，Hinton 等［46－47］提出深度学习算法（Deep Learning ），目前已在图像、语音、文本等多个领域取得令人瞩目的成绩，成为大数据时代最为成功的学习模型之一．与传统的信息表达方式不同，基于深度学习模型构建的表达强调的是一种深层次、端到端、数据驱动的特征学习方式．整个模型的参数不是通过人工设定，而是通过输入大量的训练样本，采用无监督或有监督的方式，自动学习得到最佳参数．从函数论角度来说，深度学习模型可更有效地表达更复杂的函数，而这个也是深度学习模型强大表达能力的原因．

Chen 等［48］提出另一种和Marr 值得一提的是，视觉计算理论不同的拓扑理论，他们发现对大范围

，《Visual 拓扑特征感知早于局部几何特性的感知

Cognition 》在2005年专刊组织著名学者进行评论，

目前这一视觉理论得到越来越多的重视．基于此理Huang 等论，

［49］

相互激活理论

［16］

提出一个从全局到局部的形状目标

视觉机理是计算机视觉追求的目标，把人类视觉信息处理方式翻译成程序语言对其建模来实现机器模仿人也是早期机器视觉研究的重点，取得一些成果，如Stanford 的Shakeyh 和MIT 的Cog 机器人等．但是否能按照这条路继续前进，去构建一个大而全的视觉模型，目前还无法做到．一方面，人类视觉的获取量是巨大的，而很大一部分的信息处理与建立视觉信息处理模型是无关的；另一方面，在人类视觉机理尚未完全清楚的情况下，试图去构建一个包罗万象的计算模型在现阶段是不现实的．

2）注意发挥学科优势，以应用驱动来发挥特点（认知模型是多个学科关注的重点，但各个学科侧重点不同，以生理物理学为代表的认知学科更关注的是模型如何能更好地模拟视觉机制，其设计出的模型目的是更好地反映出以计算机视觉为主的信息科学，更关注的是视觉模型的应用效果，本文主要关注后者）．目前国内外在视觉认知计算模型已开展较多的研究工作，有一些成果在相关的研究领域得到较好应用，如计算机视觉领域的物体识别、多媒体领域的视频编解码、图像处理领域的图像增强等，正因为这些模型的出发点和应用需求的不同，在模型的构造方式、应用目的等各方面都有其特点．而归根到底是对人类视觉的各方面任务、特性有不同的侧重点．许多心理物理学实验也证明在人的视觉系统

［12］

中似乎存在独立的特定模块，如Land 关于照明

这也指导我们在进一步的研究过程中的计算理论，

性，也是实现人工智能的必然要求．

2）高容量的表达能力．人脑的记忆容量估计在1TB 2．5PB 左右［51－52］，这保证人脑在整个人的一生中能记忆大量的信息．在现今大数据时代，要有效模型具有高容量是必不可的建模海量的视觉数据，少的，当前较活跃的层次表达模型如贝叶斯网、无向图网等模型理论上都没有容量的上限，保证其具有强大的建模、表达能力．当然，信息的组织、共享、稀疏表达等会大大压缩信息存储大小．

3）快速推断能力．人眼能在非常短的时间内完成人脸的定位、识别．几乎所有依赖视觉的生物都具

［53］

有类似的能力．视觉认知计算模型在学习到大量视觉概念、知识之后，也应能对复杂视觉场景进行快速的目标检测、识别等．4）多任务信息共享能力．人类视觉系统在处理视觉任务时，不仅快速而且同时完成多个任务，这表明视觉系统在完成不同任务时具有共享信息的能力，也就是在获取一些共性信息之后，能同时完成多个任务，这一能力已得到视觉研究和机器学习领

［55］

希望最终能实现域的关注．从系统一体化来讲，

一套类似人类视觉系统的视觉认知计算模型，同时

完成检测、分类、识别、分割等多种任务．在这种情况下，用于分类的关于猫的信息与用于检测的猫的信

无疑是既自然而又经济的．息共享，

［54］

可以以应用为驱动来获得一些独立的视觉认知计算

模型．

那么，一个较好的视觉认知计算模型应具备什么样的能力，本文认为应该具备如下能力．1）学习能力．（1）自主学习能力．在已来临的大数据时代，海量的图像、视频数据绝大多数是没有标签的，大量进行标注也是不太现实的．从大量的没有标签的图像数据中自动挖掘知识，无疑有着重要意通过将义．Ng 和Dean 领导的Google Brain 计划，

YouTube 上的视频直接送入多层的sparse autoen-coder 系统，在没有任何标签和人为监督的情况下，学习到猫脸和人脸等视觉概念，也验证数据驱动的

［46－47］

．（2）长期的增量自主学习的可行性与有效性

Long Incremental Learning ）．在系统学习能力（Life-已学习到大量知识的情况下，对新数据能以一种经济的方式对整个现有模型进行相应的更新，以适应

不断变化的外部环境，这是生物界“物竞天择，适者生存”的准则，所有生物都具有的基本能力

［50］

5结束语

认知科学和计算机视觉经过多年的研究和发

展，已取得令人瞩目的进展，在人工智能领域的研究方面，超级电脑沃森利用机器学习和自然语言处理模型，借助于强大的计算能力，在智力竞答节目上战胜人类冠军，标志着人类对智能的计算模型发展到新的阶段．这种通过样本采集学习的方式来实现人类认知是视觉认知计算模型的一个思路．但生物视觉系统的功能和机构极其复杂，就目前而言要完全了解还存在巨大的挑战．然而要真正实现有效的计算模型，对视觉认知机理的研究是成功的保障，正如“真正认识人类大脑是开发智能机器的霍金斯所言

［56］

必由之路”．

参

考

文

献

．我们

［1］Borji A ，Itti L．State-of-the-Art in Visual Attention Modeling．IEEE

Trans on Pattern Analysis and Machine Intelligence ，2013，35（1）：185－207

希望基于计算机的视觉认知模型具有同样的基本特

［2］Tenenbaum J B ，Griffiths T L ，Kemp C．Theory-Based Bayesian

Models of Inductive Learning and Ｒeasoning．Trends in Cognitive Sciences ，2006，10（7）：309－318

［3］ＲobertsL．Machine Perception of Three-Dimensional Solids．Ph．D

Dissertation．Cambridge ，USA ：Massachusetts Institute of Technolo-1963gy ，

［4］Marr D．Vision ：A Computational Investigation into the Human Ｒe-presentation and Processing of Visual Information．San Francisco ，USA ：Freeman ，1982

［5］Aloimonos Y．What I Have Learned．CVGIP ：Image Understand-ing ，1994，60（1）：74－85

［6］Neisser U．Cognition and Ｒeality．San Francisco ，USA ：Freeman ，

1976

［7］Shou Tiande．Brain Mechanism of Visual Information Processing．

2nd Edition．Hefei ，China ：University of Science and Technology of 2010（in Chinese ）China Press ，

（寿天德．视觉信息处理的脑机制．第2版．合肥：中国科学技术2010）大学出版社，

8］Wandell B A．Foundations of Vision．Sunderland ，USA ：Sinauer ［

Associates ，1995

［9］Gonzalez ＲC ，Woods ＲE．Digital Image Processing．2nd Edition．

Upper Saddle Ｒiver，USA ：Prentice Hall ，2002

［10］Huang Kaiqi ，Wang Liangsheng ，Tan Tieniu ，et al ．A Ｒeal-Time

Object Detecting and Tracking System for Outdoor Night Surveil-2008，41（1）：432－444lance．Pattern Ｒecognition，

［11］Lachman Ｒ，Butterfield E C ，Lachman J．Cognitive Psychology

and Information Processing ：An Introduction．Hillsdale ，USA ：Lawrence Erlbaum Associates ，1979

［12］Land E H．The ＲetinexTheory of Color Vision．Scientific Ameri-can ，1977，237（6）：108－128

［13］Huang Kaiqi ，Wu Zhenyang ，Wang Qiao．The Application of Color

Constancy to Color Image Enhancement．Journal of Applied Sci-ences ，2004，22（3）：322－326（in Chinese ）

（黄凯奇，吴镇扬，王桥．色彩恒常性在彩色图像增强中的应2004，22（3）：322－326）用．应用科学学报，

14］Zaghloul K A ，Boachen K．Optical Nerve Signals in a Neuromor-［

phic Chip I ：Outer and Inner ＲetinaModel．IEEE Trans on Bio-medical Engineering ，2004，51（4）：657－666

［15］Hubel D H ，Wiesel T N．ＲeceptiveFields ，Binocular Interaction

and Functional Architecture in the Cat＇s Visual Cortex．Journal of Physiology ，1962，160（1）：106－154

［16］Michison G．The Organization of Sequential Memory ：Sparse Ｒep-resentations and the Targeting Problem //von Seelen W ，Leinhos U ，Shaw G ，eds．Organization of Neural Networks．Weinheim ，Germany ：VCH Verlags-Gesellschaft ，1988：347－367

［17］Wright J ，Yang A ，Ganesh A ，et al ．ＲobustFace Ｒecognitionvia

Sparse Ｒepresentation．IEEE Trans on Pattern Analysis and Ma-chine Intelligence ，2009，31（2）：210－227

［18］Gao Shenghua ，Tsang I W H ，Chia L T．Laplacian Sparse Coding ，

Hypergraph Laplacian Sparse Coding ，and Applications．IEEE Trans on Pattern Analysis and Machine Intelligence ，2013，35（1）：92－104

［19］ＲodieckＲW ，Stone J J．Analysis of ＲeceptiveFields of Cat Ｒetina

Ganglion Cell．Journal of Neurophysiology ，1965，28（5）：833－849［20］Wang Yunjiu ，Qi Xianglin．The Development of Gabor Function

Model in Primary Vision．Acta Biophysica Sinica ，1993，9（3）：508－513（in Chinese ）

（汪云九，齐翔林．初级视觉的Gabor 函数模型的研究进展．生1993，9（3）：508－513）物物理学报，

［21］Daugman J G．Two-Dimensional Spectral Analysis of Cortical Ｒe-ceptive Field Profiles．Vision Ｒesearch，1980，20（10）：847－856

［22］Campell F W ，ＲobsonJ G．Application of Fourier Analysis to the

Visibility of Gratings．The Journal of Physiology ，1968，197（3）：551－556

［23］Pattanaik S N ，Ferwerda J A．A Multiscale Model of Adaptation

and Spatial Vision for ＲealisticImage Display //Proc of the 25th Annual Conference on Computer Graphics and Interactive Tech-niques．Orlando ，USA ，1998：152－172

［24］Huang Kaiqi ，Wang Qiao ，Wu Zhenyang．Natural Color Image En-hancement Evaluation Algorithm Based on Human Visual System．2006，103（1）：52－Computer Vision and Image Understanding ，63

［25］Lowe D G．Towards a Computational Model for Object Ｒecognition

in IT Cortex //Proc of the 1st IEEE International Workshop on Bi-ologically Motivated Computer Vision．Seoul ，Ｒepublicof Korea ，2000：20－31

［26］ＲiesenhuberM ，Poggio T．Hierarchical Models of Object Ｒecogni-tion in Cortex．Nature Neuroscience ，1999，2（11）：1019－1025［27］Serre T ，Wolf L ，Bileschi S ，et al ．ＲobustObject Ｒecognitionwith

Cortex-Like Mechanisms．IEEE Trans on Pattern Analysis and Ma-2007，29（3）：411－426chine Intelligence ，

［28］Huang Kaiqi ，Tao Dacheng ，Yuan Yuan ，et al ．Biologically In-spired Features for Scene Classification in Video Surveillance．IEEE Trans on Systems ，Man and Cybernetics ，2011，41（1）：307－313

［29］Huang Yongzhen ，Huang Kaiqi ，Tao Dacheng ，et al ．Enhanced

Biologically Inspired Model for Object Ｒecognition．IEEE Trans on 2011，41（6）：1668－1678Systems ，Man and Cybernetics ，

［30］Bednar J A．Building a Mechanistic Model of the Development and

Function of the Primary Visual Cortex．Journal of Physiology （Par-2012，106（5）：194－211is ），

［31］Bileschi S ，Wolf L．Image Ｒepresentationsbeyond Histograms of

Gradients ［EB /OL］．［2013－04－15］．http ：//www．cs．tau．ac．il / wolf /papers/gestalt．pdf

［32］Zhu Songchun．Embedding Gestalt Laws in Markov ＲandomFields

［EB /OL］．［2013－04－15］．http ：//www．cnbc．cmu．edu / tai /readings/texture/Gestalt_pami．pdf

［33］Gibson J J．The Senses Considered as Perceptual Systems．Boston ，

USA ：Houghton Mifflin ，1966

［34］Horn B K P ，Schunck B G．Determining Optical Flow．Artificial

1980，17（1/2/3）：185－203Intelligence ，

［35］Shimshoni I ，Ponce J．Probabilistic 3D Object Ｒecognition．Inter-2000，36（1）：51－70national Journal of Computer Vision ，

［36］Marr D．ＲepresentingVisual Information ：A Computational Approach

//Hanson A Ｒ，ＲisemanE M ，eds．Computer Vision Systems．

958

New York ，USA ：Academic Press ，1978：61－80

模式识别与人工智能

unsupervised_icml2012_slides．pdf

26卷

［37］Biederman I．Ｒecognition-by-Components ：A Theory of Human Im-age Understanding．Psychological Ｒeview，1987，94（2）：115－147

［38］Li Feifei ，Fergue Ｒ，Torralba A．Ｒecognizingand Learning Object

EB /OL］．［2007－06－17］．http ：//cs．haifa．ac．il /Categories ［

dkeren /recognition/categories．pdf

［39］Treisman A ，Gelade G．A Feature-Integration Theory of Attention．

Cognitive Psychology ，1980，12（1）：97－136

［40］Koch C ，llman S．Shifts in Selective Visual Attention ：Towards the

Underlying Neural Circuitry．Human Neurobiology ，1985，4（4）：219－227

［41］Itti L ，Koch C ，Niebur E．A Model of Saliency-Based Visual At-tention for ＲapidScene Analysis．IEEE Trans on Pattern Analysis and Machine Intelligence ，1998，20（11）：1254－1259

［42］Long Fuhui ，Zheng Nanning．A Visual Computing Model Based on

Attention Mechanism．Journal of Image and Graphics ，1998，3（7）：592－595（in Chinese ）

（龙甫荟，郑南宁．一种引入注意机制的视觉计算模型．中国图1998，3（7）：592－595）象图形学报，

43］McClelland J L ，ＲumelhartD E．An Interactive Activation Model ［

of Context Effects in Letter Perception ：Part I．An Account of Bas-ic Findings．Psychological Ｒeview，1981，88（5）：375－407［44］Mcclelland J L ，ＲumelhardD E．Exploration in Parallel Distribu-ted Processing ：A Handbook of Models ，Programs ，and Exercises．Cambridge ，USA ：MIT Press ，1986

［45］LeCun Y ，Bottou L ，Bengio Y ，et al ．Gradient-Based Learning

Applied to Document Ｒecognition．Proc of the IEEE ，1998，86（11）：2278－2324

［46］Quoc V L ，ＲanzatoM A ，Monga Ｒ，et al ．Building High-Level

Features Using Large Scale Unsupervised Learning ［EB /OL］．［2013－04－15］．http ：//static．googleusercontent．com /external_content /untrusted_dlcp /research．google．com /en/us/archive/

［47］Dean J ，Corrado G S ，Monga Ｒ，et al ．Large Scale Distributed

．［2013－04－15］．http ：//www．cs．Deep Networks ［EB /OL］toronto．

edu /

ranzato /publications/DistBeliefNIPS2012_with

Appendix．pdf

［48］Chen L．Topological Structure in Visual Perception ［EB /OL］．

［2013－04－10］．http ：//paper．sciencenet．cn /upload/news/file /2012/11/[***********]．pdf

［49］Huang Yongzhen ，Huang Kaiqi ，Tan Tieniu ，et al ．A Novel Visual

Organization Based on Topological Perception //Proc of the 9th Asian Conference on Computer Vision．Xi＇an，China ，2009：180－189

［50］Millan J Ｒ．On the Need for Online Learning in Brain-Computer

Interfaces //Proc of the IEEE International Joint Conference on Neural Networks．Martigny ，Switzerland ，2004，IV ：2877－2882［51］ＲeberP．What Is the Memory Capacity of the Human Brain ［EB /

OL ］．［2013－04－10］．http ：//www．scientificamerican．com/arti-cle．cfm ？id =what-is-the-memory-capacity

［52］Brige Ｒ．Human Brain ［EB /OL］．［2013－04－10］．http ：//

www．sizes．com /people/brain．htm

［53］Linkenkaer-Hansen K ，Palva J M ，Sams M ，et al ．Face-Selective

Processing in Human Extrastriate Cortex around 120ms after Stimu-lus Onset Ｒevealedby Magneto-and Electroencephalography．Neu-1998，253（3）：147－150roscience Letters ，

［54］Chikkerur S ，Serre T ，Tan C ，et al ．What and Where ：A Bayesian

Inference Theory of Attention．Vision Ｒesearch，2010，50（22）：2233－2247

［55］Argyriou A ，Evgeniou T ，Pontil M．Multi-Task Feature Learning

［EB /OL］．［2013－04－15］．http ：//books．nips．cc /papers/files /nips19/NIPS2006_0251．pdf

［56］Hawkins J ，Blakeslee S．On Intelligence．New York ，USA ：Times

2004Books ，