第10卷 第2期2005年2月
中国图象图形学报Journal of I m age and Graphics
Vol . 10, No . 2
Feb . , 2005
静态图像中的感兴趣区域检测技术
张 鹏 王润生
(国防科学技术大学ATR 国家重点实验室, 长沙 410073)
摘 要 感兴趣区域(RO I ) 检测将人类的视觉注意机制引入到图像分析过程中, 对于提高现有图像分析系统的工作效率有着积极的作用。本文对当前静态图像中的RO I 检测技术进行了评述。在分析了RO I 检测的产生背景之后, 首先介绍了人类的视觉注意机制, 随之从自底向上和自顶向下两个方面详细讨论了当前较具代表性的RO I 检测算法, 然后列举了一些主要的RO I 应用方向, 最后对RO I 检测技术的发展前景进行了展望。关键词 图像分析 感兴趣区域 视觉注意 注意焦点
中图法分类号:TP391. 4 文献标识码:A 文章编号:10062(022A Survey g a ti c I mage
Z Peng,WANG Run 2sheng
(A ational L aboratory, N ational U niversity of D efense Technology, Changsha, 410073)
Abstract The detecti on of regi ons of interest (RO I ) intr oduces visual attenti on mechanis m fr o m the hu man visi on t o the i m age analysis . It is significant t o i m p r ove the efficiency of the existing i m age analysis syste m.
I n this paper, the current
technique f or detecting RO I in a static i m age is surveyed . After the backgr ound of RO I detecti on is intr oduced, the mechanis m of visual attenti on in hu man visual syste m is addressed firstly . And then the main alg orith m s of RO I detecti on are classified int o t w o categ ories including bott o m 2up method and t op 2do wn method . are given .
Keywords i m age analysis, regi on of interest, visual attenti on, focus of attenti on
Each of the m is discussed in detail
res pectively . The p ri m ary app licati ons of RO I are described after ward . A t the end, several research trends of RO I detecti on
1 引 言
当前, 随着信息技术的发展, 图像逐渐成为主要的信息载体, 面对与日俱增的庞大数据, 人工图像分
析已经显得力不从心, 计算机图像分析正在成为人们关注的焦点。在该领域的探索中, 一些研究者注意到:图像分析任务所关心的内容通常仅占图像中很小一部分, 因此, 有必要将不同的处理优先级赋予不同的图像区域, 这样不但可以降低分析过程的复杂度, 而且能够减少不必要的计算浪费。
这些研究者还注意到, 人类视觉系统(hu man visual syste m , 简称HVS ) 正是这样处理感知信息的。面对一个复杂场景, HVS 能够迅速将注意力集中在
收稿日期:2004205213; 改回日期:2004207212
少数几个显著的视觉对象上, 对其进行优先处理, 该
过程被称为视觉注意, 显著的视觉对象被称为注意焦点(f ocus of attenti on, 简称F OA ) 。在该机制的帮助下, HVS 对有限的信息加工资源进行了合理分配, 使视觉感知过程具备了选择能力。
显然, 将HVS 中的视觉注意机制引入到计算机图像分析过程中是非常必要的, 它可以提供容易引起观察者注意的图像区域信息, 帮助制定合理的计算资源分配方案, 从而极大地提高现有图像分析系统的工作效率。感兴趣区域(regi on of interest, 简称RO I ) 检测正是在这种思想的基础上提出并发展起来的。在不同的研究和应用领域中, 对该区域的称谓也有所区别, 可以是显著区域、重要区域、有意义区域等, 也可以直接称之为F OA 。它们虽然在表现形式上有所区
第一作者简介:张鹏(1974~ ) , 男, 1997年于国防科技大学电子科学与工程学院获微波专业学士学位。现为国防科技大学电子科学与工程学院AT R 国家重点实验室博士研究生。主要研究方向为图像分析理解与信息融合。E 2mail:z p80272@yahoo. com. cn
第2期
张 鹏等:静态图像中的感兴趣区域检测技术
143
别, 但是在基本设计思想上都是一致的。
(binary theory ) ; Treis man 和Gelade 的特征整合理论
(feature integrati on theory ) 、Treis man 的聚光灯假设(s potlight metaphor ) 等。
2 视觉注意
图1给出了两个视觉注意的例子。首先, 在没
有任何任务提示下观察这两幅图像, 图1(a ) 中的圆盘和图1(b ) 中的圆环能够迅速引起观察者的注意, 然后, 在“寻找圆盘”的任务提示下, 再次观察这两幅图像, 观察者又会很快将注意力集中在图1(a ) 和图1(b ) 中的圆盘上。这种选择过程就是视觉注意, 被选中的视觉对象就是F OA
。
3 R O I 检测算法
近年来, 国内外研究者提出了许多RO I 检测算法, 既有与任务无关的自底向上的算法, 也有与任务相关的自顶向下的算法。其中, 前者是RO I 检测研究的核心, 也是本节的讨论重点, 后者可以结合具体任务对前者进行相应调整后实现。3. 1 R O I I ( 从图像中划分出可能成的候选区域;
(2) 显著性特征的提取 在注意前期(p re 2attenti on stage ) 提取候选区域的显著性特征;
(3) RO I 的选择与转移 在注意期(attenti on stage ) 依次选择一组候选区域作为RO I 。3. 1. 1 候选区域的划分
1 视觉注意示例
Fig . 1 Exa mp le of visual attenti on
心理学研究发现, 在静态场景中, 那些能够产生新异的刺激、较强的刺激和人所期待的刺激的视觉对象容易引起观察者的注意觉注意划分为两种类型
[3]
[1, 2]
。据此, 可以将视
:一种是第1次观察图1
时由数据驱动、独立于任务的自底向上的视觉注意
(bott om 2up attenti on ) ; 另一种是第2次观察图1时受意识支配、依赖于任务的自顶向下的视觉注意(t op 2down attenti on ) 。在这两种视觉注意中, F OA 的选择具有以下特点:
(1) 单焦点(single f ocus ) :同一时刻只能存在一个F OA;
(2) 缩放性(z oom lens ) :F OA 的空间范围可以扩大或缩小;
(3) 焦点转移(ref ocus ) :F OA 能够由一个位置向另一个位置转移;
(4) 邻域优先(p r oxi m ity ) :F OA 转移时倾向于选择与当前注视内容接近的位置;
(5) 返回抑制(inhibiti on of return ) :F OA 转移时抑制返回最近被选择过的注视内容。
针对视觉注意的作用过程, 认知心理学提出了许多假设, 较具代表性的有:B r oadbent 的过滤器模型(filter model ) ; Kahne man 的能量分配模型; Schneider 和Shiffrin 的控制加工和自动加工理论
[1, 2]
[3]
在划分候选区域时, 最直接的方法是图像分割。如通过图像分割得到候选区域, 进而从中选择
[4~6]
RO I 。
图像分割虽然能够很好地解决区域划分问题, 但是从图像分析角度看, 它的计算量太大, 偏离了RO I 检测的初衷; 从视觉感知角度来看, 注意前期的视感觉还停留在像元级, 基素级的区域分布信息尚
[7~9]
未形成。因此, 大多数研究者都避开图像分割, 在各个像元处设置多个不同尺寸和形状的邻域, 将这些像元邻域作为RO I 候选区域。另外还引入了多尺度技术, 在多个尺度层中设置这些像元邻[10~12]域。3. 1. 2 显著性特征的提取
如何选择和提取一组能够准确衡量候选区域视觉显著性的图像特征是整个RO I 检测过程中的核心环节。目前的方法大致可以划分为以下3种类型。
第1类方法从候选区域内部提取显著性特征。这类方法认为视觉显著性的产生是由于视觉对象本身具有某种能够引起观察者注意的特殊属性。例
[7]
如:Reisfeld 将像元邻域的对称性作为其显著性特征, 并通过基于梯度信息的离散对称性变换描述该
[13]
邻域的对称性; Gesu 在Reisfeld 的研究基础上, 通
144
中国图象图形学报 第10卷
过离散对称性变换(DST ) 和离散矩变换(DMT ) 的
[8]
结合描述像元邻域的显著性; Kadir 将像元邻域的复杂性(comp lexity ) 作为其显著性特征, 并通过该邻
[14]
域的灰度直方图的熵描述其复杂性; D i m ai 将像元邻域的不一致性作为其显著性特征, 并通过Gabor 滤波描述该邻域在亮度、颜色和纹理上的不
特征之间的共鸣是形成视觉注意的原因, 他通过候
选区域与记忆模板库的匹配程度描述其显著性。可以将这些基于候选区域与外界属性差异的特征称为互显著(relative saliency ) 特征。
第3类方法从候选区域内部和外部提取显著性特征。这类方法将上述的自显著特征和互显著特征结合起来作为候选区域的显著性特征。例如:
[4]
O sberger 通过尺寸、形状、方位这些自显著特征和对比度、前景/背景这些互显著特征描述分割区域的
[5]
显著性; Luo 通过分割区域在颜色、纹理、形状上;
[21]
Privitera 、10. I RO I 是I 。在图像压缩等应
一致性。可以将这些基于候选区域内部属性的特征称为自显著(self saliency ) 特征。
第2类方法从候选区域与外界的比较中提取显著性特征。这类方法认为视觉显著性的产生是由于视觉对象与外界通过某种对比形成了能够引起观察者注意的新异刺激。在这些研究者中, 有人用候选区域与周边区域比较产生的差异值或差异矢量来描
[9]
述显著性, 例如:W ai 通过DOG [15域与周边区域的灰度差异; M 算[10, 16]
方向和曲差过心边(center 2surr ) 亮度、颜色和方向这些早期视觉特征上的差异。有人用候选区域与整幅图像比较产生的差异值或差异矢量来描述显著性, 例如:Bourque 比较候选区域
[18]
与整幅图像的边缘密度差异; Stentiford 通过进化规划(evoluti onary p r ogra mm ing ) 比较候选区域与图
[19]
像中其他区域的形态差异; W alker 认为显著区域是那些被错分为其他区域的概率较低的区域, 他将所有候选区域映射至一个特征空间, 通过每个候选区域所对应的空间密度描述其显著性。还有人用候选区域与记忆内容比较产生的差异值或差异矢量来
[20]
描述显著性, 例如:Gr ossberg 的自适应共鸣理论(adap tive res onance theory ) 认为视觉对象与已学习
[17]
用领域, 研究者仅仅关心图像中哪些区域是RO I, 此时只需解决RO I 的选择问题; 而在主动视觉等应用领域, 研究者不但关心哪些区域是RO I, 而且关心这些RO I 的出现顺序, 此时需要解决RO I 的选择与转移问题。可以将目前的方法划分为3种类型。
第1类方法是门限法。在那些仅用一种特征来描述候选区域显著性的算法中, 研究者通常采用这
[9]
种方法得到RO I 。例如:Wai 根据显著度的最大值确定门限, 将大于该门限的候选区域作为RO I ; 选择显著度最大的无重叠的K 个候选区
[8]
域作为RO I ; Kadir 首先通过门限得到一组显著区域, 然后对其聚类得到RO I 。Reisfeld 、Stentiford 和
[7, 18, 19]
W alker 等人也都是采用类似的方法选择RO I 的。这些算法的部分检测结果如图2所示
。Bourque
[17]
图2 针对单特征的门限法检测结果
Fig . 2 Result of the threshold method using multi p le features
第2类方法是整合法。在那些使用多种特征来
描述候选区域显著性的算法中, 研究者通常采用这种方法通过数据合并得到RO I 。一些人先将各种显著度信息整合为显著图(saliency map ) , 再通过它寻找
[10, 16]
RO I 。例如:Itti 先通过尺度整合和特征整合将多尺度像元邻域的多种显著性特征合并为一幅灰度显
第2期
张 鹏等:静态图像中的感兴趣区域检测技术
145
著图, 再据此通过胜者全取(winner 2take 2all, 简称
W T A ) 和返回抑制机制依次得到一组显著度逐渐下降的RO I, 他还对多种整合方法进行了分析和比[22][14]
较; D i m ai 也是先通过尺度整合和特征整合得到一幅灰度显著图, 再据此通过区域生长方法实现先使用松弛迭代法将
各种显著度信息整合为一幅包含有限凸区域的二值RO I 的选择与转移;M ilanese
[15]
显著图, 再据此直接得到RO I 。另一些人则先找到各个显著性特征对应的显著区域, 再将它们整合为RO I 。
[13]
例如:Gesu 先通过门限法得到DST 和D MT 对应的显著区域, 再通过并行或串行方法将它们整合为RO I ;
[21]
Privitera 先通过局部极值点聚类得到各个显著性特征对应的显著区域, 再继续对这些显著区域聚类得到RO I 。这些算法的部分检测结果如图3
所示。
3 Fig . of method using single feature
第3它针对上述两种方法一次性提取各个候选区域的一种或多种显著性特征,
再通过这些数据搜索RO I 中工作量较大的问题, 借鉴HVS 中的串行化信息加工机制, 采用层次处理逐渐缩小RO I 的搜索范围, 直至最后得到RO I 。例如:
[11]
Culhane 提出了一个由多尺度处理层和贯穿其中
的注意束(attenti on bea m ) 组成的检测模型, 注意束沿着尺度递减的方向依次通过各层中的最显著区域, 最后得到较为精细的RO I, RO I 的转移则通过返回抑制实现, 检测中使用了亮度和边缘这两种显著性特征。该算法的检测过程与结果如图4所示
。
图4 Culhane 的层次法检测过程与结果
Fig . 4 Result of the hierarchy method of Culhane
我们在研究中也采用了这种层次处理方法, 相继提出了基于视点转移与视点追踪的显著区域检测算法
[23]
3. 2 自顶向下的R O I 检测算法
对于自顶向下的RO I 检测, 研究者通常在由具体任务得到的RO I 模型的指导下, 对自底向上的RO I 检测过程进行相应调整后实现。RO I 模型所指
和基于层次竞争的F OA 检测模型
[24]
。前者
首先通过视点转移, 利用全局显著性度量找到显著区域的位置, 然后通过视区追踪, 利用局部显著性度量确定显著区域的尺寸, 并通过它们的循环交替依次得到一系列显著区域; 后者采用依次进行的尺度、特征和方位竞争逐渐搜索F OA 的基本属性, 利用区域生长简单描述F OA 的大致轮廓, 并通过上述过程的循环往复逐一获得图像中的各个F OA 。这两种算法的部分检测结果如图5所示。
导和调整的对象可以是候选区域的尺度、方位、尺寸和形状, 也可以是显著性特征的数目、类型和描述形式, 还可以是RO I 选择与转移过程中的门限值、整合参数等。RO I 模型的建立通常采用两种方法。
第1种方法是根据检测任务人工建立RO I 模型。例如:Lee 、Canny 和Burns
[24~26]
等人对角点、边
缘和直线的提取实际上就是一种RO I 检测过程, 这
146
中国图象图形学报 第10卷
图5 改进的层次法检测结果
Fig . 5 Result of the modified hierarchy method
里, 角点、边缘和直线是设计者根据具体任务人工建
立的RO I 模型, 提取得到的特征基元就是RO I ;
[27]
D riscoll 将指定的目标特征矢量作为RO I 模型, 对于每个候选区域, 将它与周边区域的偏离度作为正激励, , , 理的I 。
第2[8]
RO I 模型。:首先用自底向上的算法在示例图中找到一个显著区域集(constellati on ) , 通过它建立RO I 模型, 然后再用自底向上的算法处理检
测图, 选择显著度与模型较为接近的候选区域作为
[10, 16, 22]
RO I ; Itti 在自底向上算法的基础上, 通过对一, [15]
, ; M ilanese (ociative me mories, ) , 在RO I 检测中通过DAM 得到一幅自顶向下图(t op 2down map ) , 将其与自底向上的显著度信息一起整合为显著图, 进而得到RO I 。这些算法的部分检测结果如图6所示
。
图6 自顶向下的RO I 检测结果
Fig . 6 Result of the t op 2down RO I detecti on
(2) 图像检索 基本思想是利用RO I 的视觉
属性和空间分布描述图像内容, 通过RO I 之间的相
4 R O I 的应用
RO I 将视觉注意引入图像分析, 赋予现有分析过
似性, 度量图像之间的相似性, 从而克服与图像内容
不相关的区域(如:背景区) 对检索过程产生的影响。相关研究参见文献[14]、[31]、[32]等。
(3) 场景渲染 基本思想是在渲染过程中赋予RO I 与其他区域不同的渲染终止条件, 从而在保证渲
程一定的选择能力, 这使它对众多图像分析任务都极具应用价值, 其中较为突出的几个应用方向如下:
(1) 图像压缩与编码 这是当前最为活跃的RO I 应用研究方向, 基本思想是在图像压缩时对RO I 进行无损或近无损压缩, 对其他区域进行有损
染结果能够被观察者接受的情况下, 最大限度地降低渲染计算量。相关研究参见文献[33]~[35]等。
(4) 目标检测 基本思想是直接利用自顶向下的RO I 检测过程, 先根据目标低层属性建立RO I 模型并检测RO I, 再根据目标高层属性对检测结果进行证实。相关研究参见文献[8]~[10]、[16]等。
压缩, 从而即保持了较好的图像质量, 又获得了较高的压缩比。该技术已经被JPEG2000标准所采用, 相关研究参见文献[28]~[30]等。
第2期
张 鹏等:静态图像中的感兴趣区域检测技术
147
(5) 目标识别 基本思想是依次识别目标中一
组显著性逐渐下降的RO I, 并据此不断调整对整个
目标的推断, 直至推断成立, 从而避免了由目标中的非区域信息引起的识别效率下降。相关研究参见文献[36]~[38]等。
(6) 主动视觉 基本思想是通过模拟视觉注意的RO I 检测, 使计算机具有类似于人类的视觉机能, 这是机器人等领域中非常关心的一个问题。相关研究参见文献[39]~[41]等。
除了在图像分析领域的应用之外, RO I 检测还被心理学研究者拿来作为研究人类视觉注意的手段, 许多心理学假设可以通过该模拟过程获得验证。例如:文献[3]、[11]、[20]都采用了这种研究方法。
趣的镜头; 甚至可以将RO I 引入高维数据分析(数
据挖掘) , 检测显著的或重要的数据子集。这种扩展为RO I 检测技术的研究勾画出了更加美好的发展前景。
参考文献(Reference)
1 W ang S, W ang A S . Cognitive p sychol ogy [M ].Beijing:Beijing University Press, 1992. [
王
, 汪安圣. 认知心理学[M], 北京:
北京大学出版社, 1992. ]
2 Shen Z, L in S Z . Physi ol ogical p sychol ogy [M].Beijing:Beijing University Press, 1993. [沈政, 林庶芝. 生理心理学[M], 北京:
北京大学出版社, 1993. ]
3 Koch C, U ll m S . Shifts in selective on:t owards the
ol ogy, 1985, 4(4) :219, A J. An aut omatic i m age
technique incor porating higher level percep tual fact ors[A].I n:Pr oceedings of the I nternati onal Conference on I m age Pr ocessing[C ], Chicago, US A, 1998:414~418.
5 Luo J, Singhal A. On measuring l ow 2level saliency in phot ographic
i m ages[A ].1084~1089.
6 Chernyak D A, Stark L W. Top 2down guided eye movements [J ].
I EEE Transacti ons on Syste m s, Man, and Cybernetics 2Part B:Cybernetics, 2001, 31(4) :514~522.
7 Reisfeld D. Constrained phase congruency:si m ultaneous detecti on of
interest points and of their scales [A ].1996:562~567. 8 Kadir T, B rady M.
Saliency, scale and i m age descri p ti on [J ].
I nternati onal Journal of Computer V isi on, 2001, 45(2) :83~105. 9 W aiW Y K, Ts ots os J K . D irecting attenti on t o onset and offset of
i m age events f or eye 2head move ment contr ol[A].I n:Pr oceedings of the
I nternati onal A ss ociati on
for Pattern
Recogniti on [C ],
W ashingt on, US A , 1994, A :274~279.
10Itti L, Koch C, N iebur E . A model of saliency 2based visual attenti on
f or rap id scene analysis[J ].
I EEE Transacti ons on Pattern Analysis
and Machine I ntelligence, 1998, 20(11) :1254~1259.
11Culhane S M, Ts ots os J K . An attenti onal p r ot otype f or early visi on
[A].
I n:
Pr oceedings of the Second Eur opean Conference on Saliency map s and attenti on selecti on in scale and
I n:
Computer V isi on [C ], Berlin, Ger many, 1992:551~560. 12J a ¨gersand M.
s patial coordinates:an inf or mati on theoretic app r oach [A ].[C ], Bost on, US A, 1995:195~202.
13Gesu V D i, Valenti C, Strinati L. Local operat ors t o detect regi ons of
interest [J ].Pattern Recogniti on Letters, 1997, 18(11) :177~181.
14D i m ai A. A ssess ment of effectiveness of content based i m age retrieval
I n:Pr oceedings of the
ComputerV isi on and Pattern Recogniti on [C ], San Francisco, US A,
I n:Pr oceedings of the I EEE Conference on Computer
V isi on and Pattern Recogniti on [C ], South Car olina, US A, 2000:
5 前景展望
, 同时, 它的复杂性也使得研究者们至今仍然无法清楚地获悉其内部运行机理。RO I 检测将视觉注意引入计算机图像分析, 其必要性和重要性是不言而喻的, 但是, 对视觉注意的研究现状也成为影响该技术发展的最主要因素。可以预见, 在以后的探索中, RO I 检测和视觉注意这两个位于不同领域的研究对象将形成更加紧密的关系, 一方面RO I 检测从视觉注意中获得指导; 另一方面视觉注意用RO I 检测验证假设。
RO I 检测技术目前还不够完善, 然而, 众多领域却已经对RO I 提出了强烈的应用需求。这种研究与需求之间的矛盾将会对RO I 检测技术以后的发展产生强大的推动力。该技术的发展一方面来自内部。目前, 无论是显著性特征的选择与提取、RO I 的选择与转移, 还是自顶向下的RO I 模型对检测过程的引导, 都还与HVS 中相对应的视觉加工过程存在较大差异, 这给研究者们提供了较大的突破空间。另一方面, 外部因素也会推动该技术的发展。RO I 检测与机器学习、神经计算和模式识别等众多热点领域的研究都有着密切的联系, 这些领域的进展将对RO I 检测研究提供有力的支持。
本文仅仅讨论了静态图像中的RO I 检测技术, 这里的RO I 特指2维平面区域。而实际上, RO I 检测的思想和过程是可以向其他低维或高维空间扩展的。例如:将RO I 引入音频分析, 检测听众感兴趣的声音片段; 将RO I 引入视频分析, 检测观众感兴
Pr oceedings of the Fifth I nternati onal Conference on Computer V isi on
148
system s[A ].525~532.
中国图象图形学报
I n:Pr oceedings of the Third I nternati onal Conference
第10卷
coding standard [J ].I EEE Signal Pr ocessing Letters, 2000, 7(9) :247~249.
29L iu L, Fan G . A ne w JPEG2000regi on 2of 2interest i m age coding method:partial significant bit p lanes shift [J ].Pr ocessing Letters, 2003, 10(2) :35~39. 30W ang Z, Bovik A C .
B it p lane 2by 2bit p lane shift (BbBShift ) —a
suggesti on for JPEG2000regi on of interest i m age coding [J ].I EEE Signal Pr ocessing Letters, 2002, 9(5) :160~162.
31Stejic Z, Takama Y, H ir ota K . Relevance feedback 2based i m age
retrieval interface incor porating regi on and feature saliency patterns as visualizable i m age si m ilarity criteria [J ].
I EEE Transacti ons on
I ndustrial Electr onics, 2003, 50(5) :839~852.
32Vu K, Hua K A, TavanapongW. I m age retrieval based on regi ons of
interest[J ].I EEE Transacti ons on Data Engineering, 15(4) :1045~33H, S N, . sensitivity and
on f of dyna m ic envir onments[J ].on Graphics, 2001, 20(1) :39~65. E, Lengyel J.
Percep ti on, attenti on, and res ources:a
t o
graphics
rendering [A ].
I n:
decisi on 2theoretic app r oach
I EEE Signal
on V isual I nfor mati on Syste m s[C ], Am sterda m, Netherlands, 1999:15M ilanese R, Bost J M , Pun T . A bott om 2up attenti on syste m for
active visi on[A].I n:Pr oceedings of the 10th Eur opean Conference on A rtificial I ntelligence[C ], V ienna, Austria, 1992:808~810. 16Itti L, Koch C .
Computati onal modeling of visual attenti on [J ].
Nature Reviews Neur oscience, 2001, 2(3) :194~230.
17Bourque E, Dudek G, Ciaravola P . Robotic sightseeing:a method for
aut omatically creating virtual envir onments [A ].Leuven, Belgium, 1998:3186~3191.
18Stentiford F W M. An evoluti onary p r ogra mm ing app r oach t o the
si m ulati on of visual attenti on[A].I n:Pr oceedings of the Congress on Evoluti onary Computati on[C ], Seoul, Korea, 2001:851~858. 19W alker K N, Cootes T F, Tayl or C J. Locating salient object features
[A].I n:Pr oceedings of the B ritish Machine V isi on Southa mp t on, UK, 1998:557~20Gr ossberg S .
1~44.
21Privitera C M , L W. A lgorithm s for defining visual regi ons 2of 2
interest:comparis on with eye fixati ons [J ].982.
22Itti L, Koch C .
Feature combinati on strategies f or saliency 2based
visual attenti on syste m s [J ].Journal of Electr onic I m aging, 2001, 10(1) :161~169.
23Zhang P, W ang R S . Detecting salient regi ons based on l ocati on shift
and extent trace[J ].Journal of Soft w are, 2004, 15(6) :891~898. [张鹏, 王润生. 基于视点转移和视区追踪的图像显著区域检测[J ].软件学报, 2004, 15(6) :891~898. ]
24Lee J S, Sun Y N, Chen C H. Multiscale corner detecti on by using wavelet transfor m [J ].
I EEE Transacti ons on Pattern Analysis and
I EEE
Machine I ntelligence, 1995, 4(1) :100~104.
25Canny J F . A computati onal app r oach t o edge detecti on [J ].
8(6) :679~698.
26Burns J B, Hans on A, R ise man E . Extracting straight lines [J ].
I EEE Transacti ons on Pattern Analysis and Machine I ntelligence, 1986, 8(4) :425~455.
27D riscoll J A, Peters R A, Cave K R. A visual attenti on net w ork for a
humanoid r obot [A].I n:Pr oceedings of the I EEE /RSJI nternati onal Conference on I ntelligent Robots and System s [C ], V ict oria, Canada, 1998:12~16.
28Christ opoul os C, A skel f J, Larss on M.
Efficient methods for
encoding regi ons of interest in the upcom ing JPEG2000still i m age Transacti os on Pattern Analysis and Machine I ntelligence, 1986,
I EEE Transacti ons on
Pattern Analysis and Machine I ntelligence, 2000, 22(9) :970~
The &8(1) :
consci [J I n:Pr oceedings of
the I EEE I nternati onal Conference on Robotics and Aut omati on [C ],
Pr oceedings of the Thirteenth Conference on Uncertainty in A rtificial I ntelligence [C ], Rhode Island, US A, 1997:238~249. 35Myskowski K,
Rokita
P,
Ta wara
T .
Percep tually 2inf or med
accelerated rendering of high quality walkthr ough sequences[A].I n:Pr oceedings of the Tenth Eur ographics Workshop on Rendering[C ], Grenada, Spain, 1999:5~18.
36Salah A A, A l paydin E, Akarun L. A selective attenti on 2based method for visual pattern recogniti on with app licati on t o handwritten digit recogniti on and face recogniti on [J ].425.
37D ickins on S J, Christensen H I, Ts ots os J K, et al . Active object
recogniti on integrating attenti on and vie wpoint contr ol [J ].Computer V isi on and I m age Understanding, 1997, 67(3) :239~260. 38Soyer C, Boz ma H I, B istefanopul os Y . A ttenti onal sequence 2based
recogniti on:markovian and evidential reas oning [J ].2003, 33(6) :937~950.
39B reazeal C, Edsinger A, Fitz patrick P, et al . Social constraints on
ani m ate visi on [J ].I EEE I ntelligent System s, 2000, 15(1) :32~37.
40I ndiveri G . Modeling selective attenti on using a neur omor phic anal og VLSI device [J ].Neural Computati on, 2001, 12(12) :2857~2880.
41Backer G, Mertsching B, Boll m ann M. Data and model driven gaze
contr ol f or an active 2visi on system [J ].I EEE Transacti ons on Pattern Analysis and Machine I ntelligence, 2001, 23(12) :1415~1429.
I EEE
Transacti ons on Syste m s, Man, and Cybernetics 2Part B:Cybernetics,
I EEE Transacti ons on
Pattern Analysis and Machine I ntelligence, 2002, 24(3) :420~
第10卷 第2期2005年2月
中国图象图形学报Journal of I m age and Graphics
Vol . 10, No . 2
Feb . , 2005
静态图像中的感兴趣区域检测技术
张 鹏 王润生
(国防科学技术大学ATR 国家重点实验室, 长沙 410073)
摘 要 感兴趣区域(RO I ) 检测将人类的视觉注意机制引入到图像分析过程中, 对于提高现有图像分析系统的工作效率有着积极的作用。本文对当前静态图像中的RO I 检测技术进行了评述。在分析了RO I 检测的产生背景之后, 首先介绍了人类的视觉注意机制, 随之从自底向上和自顶向下两个方面详细讨论了当前较具代表性的RO I 检测算法, 然后列举了一些主要的RO I 应用方向, 最后对RO I 检测技术的发展前景进行了展望。关键词 图像分析 感兴趣区域 视觉注意 注意焦点
中图法分类号:TP391. 4 文献标识码:A 文章编号:10062(022A Survey g a ti c I mage
Z Peng,WANG Run 2sheng
(A ational L aboratory, N ational U niversity of D efense Technology, Changsha, 410073)
Abstract The detecti on of regi ons of interest (RO I ) intr oduces visual attenti on mechanis m fr o m the hu man visi on t o the i m age analysis . It is significant t o i m p r ove the efficiency of the existing i m age analysis syste m.
I n this paper, the current
technique f or detecting RO I in a static i m age is surveyed . After the backgr ound of RO I detecti on is intr oduced, the mechanis m of visual attenti on in hu man visual syste m is addressed firstly . And then the main alg orith m s of RO I detecti on are classified int o t w o categ ories including bott o m 2up method and t op 2do wn method . are given .
Keywords i m age analysis, regi on of interest, visual attenti on, focus of attenti on
Each of the m is discussed in detail
res pectively . The p ri m ary app licati ons of RO I are described after ward . A t the end, several research trends of RO I detecti on
1 引 言
当前, 随着信息技术的发展, 图像逐渐成为主要的信息载体, 面对与日俱增的庞大数据, 人工图像分
析已经显得力不从心, 计算机图像分析正在成为人们关注的焦点。在该领域的探索中, 一些研究者注意到:图像分析任务所关心的内容通常仅占图像中很小一部分, 因此, 有必要将不同的处理优先级赋予不同的图像区域, 这样不但可以降低分析过程的复杂度, 而且能够减少不必要的计算浪费。
这些研究者还注意到, 人类视觉系统(hu man visual syste m , 简称HVS ) 正是这样处理感知信息的。面对一个复杂场景, HVS 能够迅速将注意力集中在
收稿日期:2004205213; 改回日期:2004207212
少数几个显著的视觉对象上, 对其进行优先处理, 该
过程被称为视觉注意, 显著的视觉对象被称为注意焦点(f ocus of attenti on, 简称F OA ) 。在该机制的帮助下, HVS 对有限的信息加工资源进行了合理分配, 使视觉感知过程具备了选择能力。
显然, 将HVS 中的视觉注意机制引入到计算机图像分析过程中是非常必要的, 它可以提供容易引起观察者注意的图像区域信息, 帮助制定合理的计算资源分配方案, 从而极大地提高现有图像分析系统的工作效率。感兴趣区域(regi on of interest, 简称RO I ) 检测正是在这种思想的基础上提出并发展起来的。在不同的研究和应用领域中, 对该区域的称谓也有所区别, 可以是显著区域、重要区域、有意义区域等, 也可以直接称之为F OA 。它们虽然在表现形式上有所区
第一作者简介:张鹏(1974~ ) , 男, 1997年于国防科技大学电子科学与工程学院获微波专业学士学位。现为国防科技大学电子科学与工程学院AT R 国家重点实验室博士研究生。主要研究方向为图像分析理解与信息融合。E 2mail:z p80272@yahoo. com. cn
第2期
张 鹏等:静态图像中的感兴趣区域检测技术
143
别, 但是在基本设计思想上都是一致的。
(binary theory ) ; Treis man 和Gelade 的特征整合理论
(feature integrati on theory ) 、Treis man 的聚光灯假设(s potlight metaphor ) 等。
2 视觉注意
图1给出了两个视觉注意的例子。首先, 在没
有任何任务提示下观察这两幅图像, 图1(a ) 中的圆盘和图1(b ) 中的圆环能够迅速引起观察者的注意, 然后, 在“寻找圆盘”的任务提示下, 再次观察这两幅图像, 观察者又会很快将注意力集中在图1(a ) 和图1(b ) 中的圆盘上。这种选择过程就是视觉注意, 被选中的视觉对象就是F OA
。
3 R O I 检测算法
近年来, 国内外研究者提出了许多RO I 检测算法, 既有与任务无关的自底向上的算法, 也有与任务相关的自顶向下的算法。其中, 前者是RO I 检测研究的核心, 也是本节的讨论重点, 后者可以结合具体任务对前者进行相应调整后实现。3. 1 R O I I ( 从图像中划分出可能成的候选区域;
(2) 显著性特征的提取 在注意前期(p re 2attenti on stage ) 提取候选区域的显著性特征;
(3) RO I 的选择与转移 在注意期(attenti on stage ) 依次选择一组候选区域作为RO I 。3. 1. 1 候选区域的划分
1 视觉注意示例
Fig . 1 Exa mp le of visual attenti on
心理学研究发现, 在静态场景中, 那些能够产生新异的刺激、较强的刺激和人所期待的刺激的视觉对象容易引起观察者的注意觉注意划分为两种类型
[3]
[1, 2]
。据此, 可以将视
:一种是第1次观察图1
时由数据驱动、独立于任务的自底向上的视觉注意
(bott om 2up attenti on ) ; 另一种是第2次观察图1时受意识支配、依赖于任务的自顶向下的视觉注意(t op 2down attenti on ) 。在这两种视觉注意中, F OA 的选择具有以下特点:
(1) 单焦点(single f ocus ) :同一时刻只能存在一个F OA;
(2) 缩放性(z oom lens ) :F OA 的空间范围可以扩大或缩小;
(3) 焦点转移(ref ocus ) :F OA 能够由一个位置向另一个位置转移;
(4) 邻域优先(p r oxi m ity ) :F OA 转移时倾向于选择与当前注视内容接近的位置;
(5) 返回抑制(inhibiti on of return ) :F OA 转移时抑制返回最近被选择过的注视内容。
针对视觉注意的作用过程, 认知心理学提出了许多假设, 较具代表性的有:B r oadbent 的过滤器模型(filter model ) ; Kahne man 的能量分配模型; Schneider 和Shiffrin 的控制加工和自动加工理论
[1, 2]
[3]
在划分候选区域时, 最直接的方法是图像分割。如通过图像分割得到候选区域, 进而从中选择
[4~6]
RO I 。
图像分割虽然能够很好地解决区域划分问题, 但是从图像分析角度看, 它的计算量太大, 偏离了RO I 检测的初衷; 从视觉感知角度来看, 注意前期的视感觉还停留在像元级, 基素级的区域分布信息尚
[7~9]
未形成。因此, 大多数研究者都避开图像分割, 在各个像元处设置多个不同尺寸和形状的邻域, 将这些像元邻域作为RO I 候选区域。另外还引入了多尺度技术, 在多个尺度层中设置这些像元邻[10~12]域。3. 1. 2 显著性特征的提取
如何选择和提取一组能够准确衡量候选区域视觉显著性的图像特征是整个RO I 检测过程中的核心环节。目前的方法大致可以划分为以下3种类型。
第1类方法从候选区域内部提取显著性特征。这类方法认为视觉显著性的产生是由于视觉对象本身具有某种能够引起观察者注意的特殊属性。例
[7]
如:Reisfeld 将像元邻域的对称性作为其显著性特征, 并通过基于梯度信息的离散对称性变换描述该
[13]
邻域的对称性; Gesu 在Reisfeld 的研究基础上, 通
144
中国图象图形学报 第10卷
过离散对称性变换(DST ) 和离散矩变换(DMT ) 的
[8]
结合描述像元邻域的显著性; Kadir 将像元邻域的复杂性(comp lexity ) 作为其显著性特征, 并通过该邻
[14]
域的灰度直方图的熵描述其复杂性; D i m ai 将像元邻域的不一致性作为其显著性特征, 并通过Gabor 滤波描述该邻域在亮度、颜色和纹理上的不
特征之间的共鸣是形成视觉注意的原因, 他通过候
选区域与记忆模板库的匹配程度描述其显著性。可以将这些基于候选区域与外界属性差异的特征称为互显著(relative saliency ) 特征。
第3类方法从候选区域内部和外部提取显著性特征。这类方法将上述的自显著特征和互显著特征结合起来作为候选区域的显著性特征。例如:
[4]
O sberger 通过尺寸、形状、方位这些自显著特征和对比度、前景/背景这些互显著特征描述分割区域的
[5]
显著性; Luo 通过分割区域在颜色、纹理、形状上;
[21]
Privitera 、10. I RO I 是I 。在图像压缩等应
一致性。可以将这些基于候选区域内部属性的特征称为自显著(self saliency ) 特征。
第2类方法从候选区域与外界的比较中提取显著性特征。这类方法认为视觉显著性的产生是由于视觉对象与外界通过某种对比形成了能够引起观察者注意的新异刺激。在这些研究者中, 有人用候选区域与周边区域比较产生的差异值或差异矢量来描
[9]
述显著性, 例如:W ai 通过DOG [15域与周边区域的灰度差异; M 算[10, 16]
方向和曲差过心边(center 2surr ) 亮度、颜色和方向这些早期视觉特征上的差异。有人用候选区域与整幅图像比较产生的差异值或差异矢量来描述显著性, 例如:Bourque 比较候选区域
[18]
与整幅图像的边缘密度差异; Stentiford 通过进化规划(evoluti onary p r ogra mm ing ) 比较候选区域与图
[19]
像中其他区域的形态差异; W alker 认为显著区域是那些被错分为其他区域的概率较低的区域, 他将所有候选区域映射至一个特征空间, 通过每个候选区域所对应的空间密度描述其显著性。还有人用候选区域与记忆内容比较产生的差异值或差异矢量来
[20]
描述显著性, 例如:Gr ossberg 的自适应共鸣理论(adap tive res onance theory ) 认为视觉对象与已学习
[17]
用领域, 研究者仅仅关心图像中哪些区域是RO I, 此时只需解决RO I 的选择问题; 而在主动视觉等应用领域, 研究者不但关心哪些区域是RO I, 而且关心这些RO I 的出现顺序, 此时需要解决RO I 的选择与转移问题。可以将目前的方法划分为3种类型。
第1类方法是门限法。在那些仅用一种特征来描述候选区域显著性的算法中, 研究者通常采用这
[9]
种方法得到RO I 。例如:Wai 根据显著度的最大值确定门限, 将大于该门限的候选区域作为RO I ; 选择显著度最大的无重叠的K 个候选区
[8]
域作为RO I ; Kadir 首先通过门限得到一组显著区域, 然后对其聚类得到RO I 。Reisfeld 、Stentiford 和
[7, 18, 19]
W alker 等人也都是采用类似的方法选择RO I 的。这些算法的部分检测结果如图2所示
。Bourque
[17]
图2 针对单特征的门限法检测结果
Fig . 2 Result of the threshold method using multi p le features
第2类方法是整合法。在那些使用多种特征来
描述候选区域显著性的算法中, 研究者通常采用这种方法通过数据合并得到RO I 。一些人先将各种显著度信息整合为显著图(saliency map ) , 再通过它寻找
[10, 16]
RO I 。例如:Itti 先通过尺度整合和特征整合将多尺度像元邻域的多种显著性特征合并为一幅灰度显
第2期
张 鹏等:静态图像中的感兴趣区域检测技术
145
著图, 再据此通过胜者全取(winner 2take 2all, 简称
W T A ) 和返回抑制机制依次得到一组显著度逐渐下降的RO I, 他还对多种整合方法进行了分析和比[22][14]
较; D i m ai 也是先通过尺度整合和特征整合得到一幅灰度显著图, 再据此通过区域生长方法实现先使用松弛迭代法将
各种显著度信息整合为一幅包含有限凸区域的二值RO I 的选择与转移;M ilanese
[15]
显著图, 再据此直接得到RO I 。另一些人则先找到各个显著性特征对应的显著区域, 再将它们整合为RO I 。
[13]
例如:Gesu 先通过门限法得到DST 和D MT 对应的显著区域, 再通过并行或串行方法将它们整合为RO I ;
[21]
Privitera 先通过局部极值点聚类得到各个显著性特征对应的显著区域, 再继续对这些显著区域聚类得到RO I 。这些算法的部分检测结果如图3
所示。
3 Fig . of method using single feature
第3它针对上述两种方法一次性提取各个候选区域的一种或多种显著性特征,
再通过这些数据搜索RO I 中工作量较大的问题, 借鉴HVS 中的串行化信息加工机制, 采用层次处理逐渐缩小RO I 的搜索范围, 直至最后得到RO I 。例如:
[11]
Culhane 提出了一个由多尺度处理层和贯穿其中
的注意束(attenti on bea m ) 组成的检测模型, 注意束沿着尺度递减的方向依次通过各层中的最显著区域, 最后得到较为精细的RO I, RO I 的转移则通过返回抑制实现, 检测中使用了亮度和边缘这两种显著性特征。该算法的检测过程与结果如图4所示
。
图4 Culhane 的层次法检测过程与结果
Fig . 4 Result of the hierarchy method of Culhane
我们在研究中也采用了这种层次处理方法, 相继提出了基于视点转移与视点追踪的显著区域检测算法
[23]
3. 2 自顶向下的R O I 检测算法
对于自顶向下的RO I 检测, 研究者通常在由具体任务得到的RO I 模型的指导下, 对自底向上的RO I 检测过程进行相应调整后实现。RO I 模型所指
和基于层次竞争的F OA 检测模型
[24]
。前者
首先通过视点转移, 利用全局显著性度量找到显著区域的位置, 然后通过视区追踪, 利用局部显著性度量确定显著区域的尺寸, 并通过它们的循环交替依次得到一系列显著区域; 后者采用依次进行的尺度、特征和方位竞争逐渐搜索F OA 的基本属性, 利用区域生长简单描述F OA 的大致轮廓, 并通过上述过程的循环往复逐一获得图像中的各个F OA 。这两种算法的部分检测结果如图5所示。
导和调整的对象可以是候选区域的尺度、方位、尺寸和形状, 也可以是显著性特征的数目、类型和描述形式, 还可以是RO I 选择与转移过程中的门限值、整合参数等。RO I 模型的建立通常采用两种方法。
第1种方法是根据检测任务人工建立RO I 模型。例如:Lee 、Canny 和Burns
[24~26]
等人对角点、边
缘和直线的提取实际上就是一种RO I 检测过程, 这
146
中国图象图形学报 第10卷
图5 改进的层次法检测结果
Fig . 5 Result of the modified hierarchy method
里, 角点、边缘和直线是设计者根据具体任务人工建
立的RO I 模型, 提取得到的特征基元就是RO I ;
[27]
D riscoll 将指定的目标特征矢量作为RO I 模型, 对于每个候选区域, 将它与周边区域的偏离度作为正激励, , , 理的I 。
第2[8]
RO I 模型。:首先用自底向上的算法在示例图中找到一个显著区域集(constellati on ) , 通过它建立RO I 模型, 然后再用自底向上的算法处理检
测图, 选择显著度与模型较为接近的候选区域作为
[10, 16, 22]
RO I ; Itti 在自底向上算法的基础上, 通过对一, [15]
, ; M ilanese (ociative me mories, ) , 在RO I 检测中通过DAM 得到一幅自顶向下图(t op 2down map ) , 将其与自底向上的显著度信息一起整合为显著图, 进而得到RO I 。这些算法的部分检测结果如图6所示
。
图6 自顶向下的RO I 检测结果
Fig . 6 Result of the t op 2down RO I detecti on
(2) 图像检索 基本思想是利用RO I 的视觉
属性和空间分布描述图像内容, 通过RO I 之间的相
4 R O I 的应用
RO I 将视觉注意引入图像分析, 赋予现有分析过
似性, 度量图像之间的相似性, 从而克服与图像内容
不相关的区域(如:背景区) 对检索过程产生的影响。相关研究参见文献[14]、[31]、[32]等。
(3) 场景渲染 基本思想是在渲染过程中赋予RO I 与其他区域不同的渲染终止条件, 从而在保证渲
程一定的选择能力, 这使它对众多图像分析任务都极具应用价值, 其中较为突出的几个应用方向如下:
(1) 图像压缩与编码 这是当前最为活跃的RO I 应用研究方向, 基本思想是在图像压缩时对RO I 进行无损或近无损压缩, 对其他区域进行有损
染结果能够被观察者接受的情况下, 最大限度地降低渲染计算量。相关研究参见文献[33]~[35]等。
(4) 目标检测 基本思想是直接利用自顶向下的RO I 检测过程, 先根据目标低层属性建立RO I 模型并检测RO I, 再根据目标高层属性对检测结果进行证实。相关研究参见文献[8]~[10]、[16]等。
压缩, 从而即保持了较好的图像质量, 又获得了较高的压缩比。该技术已经被JPEG2000标准所采用, 相关研究参见文献[28]~[30]等。
第2期
张 鹏等:静态图像中的感兴趣区域检测技术
147
(5) 目标识别 基本思想是依次识别目标中一
组显著性逐渐下降的RO I, 并据此不断调整对整个
目标的推断, 直至推断成立, 从而避免了由目标中的非区域信息引起的识别效率下降。相关研究参见文献[36]~[38]等。
(6) 主动视觉 基本思想是通过模拟视觉注意的RO I 检测, 使计算机具有类似于人类的视觉机能, 这是机器人等领域中非常关心的一个问题。相关研究参见文献[39]~[41]等。
除了在图像分析领域的应用之外, RO I 检测还被心理学研究者拿来作为研究人类视觉注意的手段, 许多心理学假设可以通过该模拟过程获得验证。例如:文献[3]、[11]、[20]都采用了这种研究方法。
趣的镜头; 甚至可以将RO I 引入高维数据分析(数
据挖掘) , 检测显著的或重要的数据子集。这种扩展为RO I 检测技术的研究勾画出了更加美好的发展前景。
参考文献(Reference)
1 W ang S, W ang A S . Cognitive p sychol ogy [M ].Beijing:Beijing University Press, 1992. [
王
, 汪安圣. 认知心理学[M], 北京:
北京大学出版社, 1992. ]
2 Shen Z, L in S Z . Physi ol ogical p sychol ogy [M].Beijing:Beijing University Press, 1993. [沈政, 林庶芝. 生理心理学[M], 北京:
北京大学出版社, 1993. ]
3 Koch C, U ll m S . Shifts in selective on:t owards the
ol ogy, 1985, 4(4) :219, A J. An aut omatic i m age
technique incor porating higher level percep tual fact ors[A].I n:Pr oceedings of the I nternati onal Conference on I m age Pr ocessing[C ], Chicago, US A, 1998:414~418.
5 Luo J, Singhal A. On measuring l ow 2level saliency in phot ographic
i m ages[A ].1084~1089.
6 Chernyak D A, Stark L W. Top 2down guided eye movements [J ].
I EEE Transacti ons on Syste m s, Man, and Cybernetics 2Part B:Cybernetics, 2001, 31(4) :514~522.
7 Reisfeld D. Constrained phase congruency:si m ultaneous detecti on of
interest points and of their scales [A ].1996:562~567. 8 Kadir T, B rady M.
Saliency, scale and i m age descri p ti on [J ].
I nternati onal Journal of Computer V isi on, 2001, 45(2) :83~105. 9 W aiW Y K, Ts ots os J K . D irecting attenti on t o onset and offset of
i m age events f or eye 2head move ment contr ol[A].I n:Pr oceedings of the
I nternati onal A ss ociati on
for Pattern
Recogniti on [C ],
W ashingt on, US A , 1994, A :274~279.
10Itti L, Koch C, N iebur E . A model of saliency 2based visual attenti on
f or rap id scene analysis[J ].
I EEE Transacti ons on Pattern Analysis
and Machine I ntelligence, 1998, 20(11) :1254~1259.
11Culhane S M, Ts ots os J K . An attenti onal p r ot otype f or early visi on
[A].
I n:
Pr oceedings of the Second Eur opean Conference on Saliency map s and attenti on selecti on in scale and
I n:
Computer V isi on [C ], Berlin, Ger many, 1992:551~560. 12J a ¨gersand M.
s patial coordinates:an inf or mati on theoretic app r oach [A ].[C ], Bost on, US A, 1995:195~202.
13Gesu V D i, Valenti C, Strinati L. Local operat ors t o detect regi ons of
interest [J ].Pattern Recogniti on Letters, 1997, 18(11) :177~181.
14D i m ai A. A ssess ment of effectiveness of content based i m age retrieval
I n:Pr oceedings of the
ComputerV isi on and Pattern Recogniti on [C ], San Francisco, US A,
I n:Pr oceedings of the I EEE Conference on Computer
V isi on and Pattern Recogniti on [C ], South Car olina, US A, 2000:
5 前景展望
, 同时, 它的复杂性也使得研究者们至今仍然无法清楚地获悉其内部运行机理。RO I 检测将视觉注意引入计算机图像分析, 其必要性和重要性是不言而喻的, 但是, 对视觉注意的研究现状也成为影响该技术发展的最主要因素。可以预见, 在以后的探索中, RO I 检测和视觉注意这两个位于不同领域的研究对象将形成更加紧密的关系, 一方面RO I 检测从视觉注意中获得指导; 另一方面视觉注意用RO I 检测验证假设。
RO I 检测技术目前还不够完善, 然而, 众多领域却已经对RO I 提出了强烈的应用需求。这种研究与需求之间的矛盾将会对RO I 检测技术以后的发展产生强大的推动力。该技术的发展一方面来自内部。目前, 无论是显著性特征的选择与提取、RO I 的选择与转移, 还是自顶向下的RO I 模型对检测过程的引导, 都还与HVS 中相对应的视觉加工过程存在较大差异, 这给研究者们提供了较大的突破空间。另一方面, 外部因素也会推动该技术的发展。RO I 检测与机器学习、神经计算和模式识别等众多热点领域的研究都有着密切的联系, 这些领域的进展将对RO I 检测研究提供有力的支持。
本文仅仅讨论了静态图像中的RO I 检测技术, 这里的RO I 特指2维平面区域。而实际上, RO I 检测的思想和过程是可以向其他低维或高维空间扩展的。例如:将RO I 引入音频分析, 检测听众感兴趣的声音片段; 将RO I 引入视频分析, 检测观众感兴
Pr oceedings of the Fifth I nternati onal Conference on Computer V isi on
148
system s[A ].525~532.
中国图象图形学报
I n:Pr oceedings of the Third I nternati onal Conference
第10卷
coding standard [J ].I EEE Signal Pr ocessing Letters, 2000, 7(9) :247~249.
29L iu L, Fan G . A ne w JPEG2000regi on 2of 2interest i m age coding method:partial significant bit p lanes shift [J ].Pr ocessing Letters, 2003, 10(2) :35~39. 30W ang Z, Bovik A C .
B it p lane 2by 2bit p lane shift (BbBShift ) —a
suggesti on for JPEG2000regi on of interest i m age coding [J ].I EEE Signal Pr ocessing Letters, 2002, 9(5) :160~162.
31Stejic Z, Takama Y, H ir ota K . Relevance feedback 2based i m age
retrieval interface incor porating regi on and feature saliency patterns as visualizable i m age si m ilarity criteria [J ].
I EEE Transacti ons on
I ndustrial Electr onics, 2003, 50(5) :839~852.
32Vu K, Hua K A, TavanapongW. I m age retrieval based on regi ons of
interest[J ].I EEE Transacti ons on Data Engineering, 15(4) :1045~33H, S N, . sensitivity and
on f of dyna m ic envir onments[J ].on Graphics, 2001, 20(1) :39~65. E, Lengyel J.
Percep ti on, attenti on, and res ources:a
t o
graphics
rendering [A ].
I n:
decisi on 2theoretic app r oach
I EEE Signal
on V isual I nfor mati on Syste m s[C ], Am sterda m, Netherlands, 1999:15M ilanese R, Bost J M , Pun T . A bott om 2up attenti on syste m for
active visi on[A].I n:Pr oceedings of the 10th Eur opean Conference on A rtificial I ntelligence[C ], V ienna, Austria, 1992:808~810. 16Itti L, Koch C .
Computati onal modeling of visual attenti on [J ].
Nature Reviews Neur oscience, 2001, 2(3) :194~230.
17Bourque E, Dudek G, Ciaravola P . Robotic sightseeing:a method for
aut omatically creating virtual envir onments [A ].Leuven, Belgium, 1998:3186~3191.
18Stentiford F W M. An evoluti onary p r ogra mm ing app r oach t o the
si m ulati on of visual attenti on[A].I n:Pr oceedings of the Congress on Evoluti onary Computati on[C ], Seoul, Korea, 2001:851~858. 19W alker K N, Cootes T F, Tayl or C J. Locating salient object features
[A].I n:Pr oceedings of the B ritish Machine V isi on Southa mp t on, UK, 1998:557~20Gr ossberg S .
1~44.
21Privitera C M , L W. A lgorithm s for defining visual regi ons 2of 2
interest:comparis on with eye fixati ons [J ].982.
22Itti L, Koch C .
Feature combinati on strategies f or saliency 2based
visual attenti on syste m s [J ].Journal of Electr onic I m aging, 2001, 10(1) :161~169.
23Zhang P, W ang R S . Detecting salient regi ons based on l ocati on shift
and extent trace[J ].Journal of Soft w are, 2004, 15(6) :891~898. [张鹏, 王润生. 基于视点转移和视区追踪的图像显著区域检测[J ].软件学报, 2004, 15(6) :891~898. ]
24Lee J S, Sun Y N, Chen C H. Multiscale corner detecti on by using wavelet transfor m [J ].
I EEE Transacti ons on Pattern Analysis and
I EEE
Machine I ntelligence, 1995, 4(1) :100~104.
25Canny J F . A computati onal app r oach t o edge detecti on [J ].
8(6) :679~698.
26Burns J B, Hans on A, R ise man E . Extracting straight lines [J ].
I EEE Transacti ons on Pattern Analysis and Machine I ntelligence, 1986, 8(4) :425~455.
27D riscoll J A, Peters R A, Cave K R. A visual attenti on net w ork for a
humanoid r obot [A].I n:Pr oceedings of the I EEE /RSJI nternati onal Conference on I ntelligent Robots and System s [C ], V ict oria, Canada, 1998:12~16.
28Christ opoul os C, A skel f J, Larss on M.
Efficient methods for
encoding regi ons of interest in the upcom ing JPEG2000still i m age Transacti os on Pattern Analysis and Machine I ntelligence, 1986,
I EEE Transacti ons on
Pattern Analysis and Machine I ntelligence, 2000, 22(9) :970~
The &8(1) :
consci [J I n:Pr oceedings of
the I EEE I nternati onal Conference on Robotics and Aut omati on [C ],
Pr oceedings of the Thirteenth Conference on Uncertainty in A rtificial I ntelligence [C ], Rhode Island, US A, 1997:238~249. 35Myskowski K,
Rokita
P,
Ta wara
T .
Percep tually 2inf or med
accelerated rendering of high quality walkthr ough sequences[A].I n:Pr oceedings of the Tenth Eur ographics Workshop on Rendering[C ], Grenada, Spain, 1999:5~18.
36Salah A A, A l paydin E, Akarun L. A selective attenti on 2based method for visual pattern recogniti on with app licati on t o handwritten digit recogniti on and face recogniti on [J ].425.
37D ickins on S J, Christensen H I, Ts ots os J K, et al . Active object
recogniti on integrating attenti on and vie wpoint contr ol [J ].Computer V isi on and I m age Understanding, 1997, 67(3) :239~260. 38Soyer C, Boz ma H I, B istefanopul os Y . A ttenti onal sequence 2based
recogniti on:markovian and evidential reas oning [J ].2003, 33(6) :937~950.
39B reazeal C, Edsinger A, Fitz patrick P, et al . Social constraints on
ani m ate visi on [J ].I EEE I ntelligent System s, 2000, 15(1) :32~37.
40I ndiveri G . Modeling selective attenti on using a neur omor phic anal og VLSI device [J ].Neural Computati on, 2001, 12(12) :2857~2880.
41Backer G, Mertsching B, Boll m ann M. Data and model driven gaze
contr ol f or an active 2visi on system [J ].I EEE Transacti ons on Pattern Analysis and Machine I ntelligence, 2001, 23(12) :1415~1429.
I EEE
Transacti ons on Syste m s, Man, and Cybernetics 2Part B:Cybernetics,
I EEE Transacti ons on
Pattern Analysis and Machine I ntelligence, 2002, 24(3) :420~