目标跟踪算法的研究

西北工业大学本科毕业设计论文

摘要 .............................................................................................................................. 1

ABSTRACT ................................................................................................................... 2

第一章绪论 ................................................................................................................ 4

1.1课题研究背景和意义 ....................................................................................... 4

1.2国内外研究现状 ............................................................................................... 5

1.3本文的具体结构安排 ....................................................................................... 7

第二章运动目标检测 .................................................................................................. 8

2.1检测算法及概述 ............................................................................................... 8

2.1.1连续帧间差分法 ..................................................................................... 9

2.1.2背景去除法 ........................................................................................... 11

2.1.3光流法 ................................................................................................... 13

第三章运动目标跟踪方法 ........................................................................................ 16

3.1引言 ................................................................................................................. 16

3.2运动目标跟踪方法 ......................................................................................... 16

3.2.1基于特征匹配的跟踪方法 ................................................................... 16

3.2.2基于区域匹配的跟踪方法 ................................................................... 17

3.2.3基于模型匹配的跟踪方法 ................................................................... 18

3.3运动目标搜索算法 ......................................................................................... 18

3.3.1绝对平衡搜索法 .................................................................................... 18

3.4绝对平衡搜索法实验结果 ............................................................................. 19

3.4.1归一化互相关搜索法 ........................................................................... 21

3.5归一化互相关搜索法实验结果及分析 ......................................................... 22

第四章模板更新与轨迹预测 .................................................................................. 26

4.1模板更新简述及策略 ..................................................................................... 26

4.2轨迹预测 ......................................................................................................... 28

4.2.1线性预测 ............................................................................................... 29

4.2.2平方预测器 ........................................................................................... 30

西北工业大学本科毕业设计论文

4.3实验结果及分析： ......................................................................................... 31

致谢 ............................................................................................................................ 36

参考文献 ...................................................................................................................... 37

毕业设计小结 .............................................................................................................. 38

西北工业大学本科毕业设计论文

摘要

图像序列目标跟踪是计算机视觉中的经典问题，它是指在一组图像序列中，根据所需目标模型，实时确定图像中目标所在位置的过程。它最初吸引了军方的关注，逐渐被应用于电视制导炸弹、火控系统等军用备中。序列图像运动目标跟踪是通过对传感器拍摄到的图像序列进行分析，计算出目标在每帧图像上的位置。它是计算机视觉系统的核心，是一项融合了图像处理、模式识别、人工只能和自动控制等领域先进成果的高技术课题，在航天、监控、生物医学和机器人技术等多种领域都有广泛应用。因此，非常有必要研究运动目标的跟踪。

本论文就图像的单目标跟踪问题，本文重点研究了帧间差分法和背景去除法等目标检测方法，研究了模板相关匹配跟踪算法主要是：最小均方误差函数(MES)，最小平均绝对差值函数(MAD)和最大匹配像素统计(MPC)的跟踪算法。在跟踪过程中，由于跟踪设备与目标的相对运动, 视野中的目标可能出现大小、形状、姿态等变化, 加上外界环境中的各种干扰, 所要跟踪的目标和目标所在的场景都发生了变化, 有可能丢失跟踪目标。为了保证跟踪的稳定性和正确性, 需要对模板图像进行自适应更新。由于目标运动有一定得规律，可以采取轨迹预测以提高跟踪精度，本文采用了线性预测法。

对比分析了相关匹配算法的跟踪精度和跟踪速度；对比不采用模板更新和模板跟新的跟踪进度和差别，实验表明，跟踪算法加上轨迹预测及模板跟新在很大程度上提高了跟踪帧数，提高了跟踪精度，具有一定的抗噪声性能。

关键词：目标跟踪，目标检测，轨迹预测，模板更新

ABSTRACT

Target tracking, image sequence is a classic computer vision problems, it is defined as a set of image sequences, in accordance with requirements of the target model, real-time images to determine the location of the target process. It initially attracted the concern of the military has gradually been applied to television-guided bombs, fire control systems for military preparation. Moving target tracking sensor is taken through the image sequence analysis, to calculate the target image in each frame position. It is the core of computer vision system is a combination of image processing, pattern recognition, artificial only and the results of automatic control in areas such as advanced high-tech issues in the aerospace, control, biomedical and robotics fields, etc. There are widely used. Thus, it is necessary to study the tracking of moving targets.

In this paper, the image of the single-target tracking problem, research the target detection method is mainly based on inter-frame difference and background removal method to detect the target in preparation for target tracking. Template matching tracking algorithm is: the smallest mean square error function (MES), the smallest mean absolute difference function (MAD) and the maximum matching pixel statistics (MPC) of the tracking algorithm. In the tracking process, due to the relative camera movement with the goal, the goal of vision may occur in size, shape, gesture, such as changes in the external environment combined with the various kinds of interference, as well as over time, to track where the goals and objectives scene changes have taken place, it is possible to track the target is lost. In order to ensure the stability and tracking accuracy, the need for adaptive template image update. Since the goal of movement must be the law of the forecast track could take to improve the tracking precision, this article uses the square of the linear prediction method and prediction method.

Analysis of the relevant matching algorithm to track the tracking accuracy and

speed; contrast do not use templates and template updates with the new tracking the progress and differences in the experiment proved that the tracking algorithm with trajectory prediction and templates to a large extent with the new frame to improve tracking,Improved tracking accuracy, which has strong anti-noise performance.

Key words: Target tracking ， Target Detection ， Trajectory Prediction， Template Update

第一章绪论

本章首先讨论了目标跟踪的研究背景和意义；介绍了目标跟踪在国内外的研究现状；接着讨论了目标跟踪研究中面临的困难和待解决的问题；最后介绍了本文的主要工作和总体结构。

1.1课题研究背景和意义

运动目标跟踪在军事、智能监控、人机界面、虚拟现实、运动分析等许多领

域有着广泛的应用前景，在科学和工程中有着重要的研究价值，吸引了国内外越来越多研究者的兴趣。

图像序列中的运动目标跟踪，就是在各帧图像中检测出各个独立运动的目标，或是用户感兴趣的运动区域（如人体、车辆等），并且提取目标的位置信息，得到各个目标的运动轨迹。其实质是通过对传感器获取的图像序列进行分析，得到目标在每帧图像中的位置、速度及加速度等特征参数。

图1-1目标跟踪原理图

国内外学者对目标跟踪算法进行了大量深入的研究，取得了令人瞩目的研究成果。但是，现有的目标跟踪算法大多受限于特定的应用背景，跟踪算法还有待于进一步研究和深化，研究一种具有鲁棒性和实时性、适用性强的目标跟踪方法依然面临着巨大挑战。

目前，运动目标跟踪算法的主要难点有：复杂背景下的运动目标提取、目标之间的相互遮挡以及目标与背景之间的遮挡、阴影处理、多摄像机的数据融合等。尤其是遮挡和阴影问题，它们普遍存在于现实环境中，严重影响跟踪算法的可靠性和适用性。本文重点研究了序列图像的几种常用跟踪方法。

1.2国内外研究现状

目标跟踪就是通过对摄像机获得的图像序列进行分析，计算出目标在每帧图像上的二维位置坐标，并根据不同的特征值，将图像序列中不同帧之间同一运动目标关联起来，得到各个运动目标完整的运动轨迹，即在连续的图像序列中建立运动目标的对应关系。

目前，国内外学者提出了许多不同的跟踪算法和跟踪系统，可以按照不同的划分依据对跟踪算法进行不同的分类：就跟踪对象而言，可以分为车辆跟踪、人体跟踪或人体部分跟踪（如跟踪手、脸、头和脚等身体部分）等；就跟踪目标个数而言，可以分为单目标跟踪和多目标跟踪；就跟踪视角而言，可以分为单摄像机的单一视角、多摄像机的多视角和全方位视角；还可以通过摄像机类型（红外摄像机、可见光摄像机）、摄像机状态（运动、固定）、跟踪空间（二维、三维）和跟踪环境（室内、室外）等方面来进行分类。[2]

针对不同的研究对象有不同的跟踪算法，主要有以下几种跟踪算法：

1) 基于特征的跟踪

为了实现目标跟踪，没有必要跟踪整个目标区域，只要跟踪目标的某些显著特征，就可以实现对整个运动目标的跟踪。这些显著特征可以是目标的质心，也可以是目标上的任意一点，只要这些特征具有高度的稳定性，不易受外界因素如光照强度变化、噪声等因素的干扰，对目标大小、位置、方位不敏感即可。为了提高跟踪的鲁棒性，往往不只选一个特征，而是选一组特征，在一般情况下，可利用的特征有：角点、直边缘等局部特征和质心、表面积和惯量矩等全局特征，在实际应用中，采用什么特征主要取决于目标具有哪些特征以及算法实现的具体要求。

基于特征的目标跟踪方法利用跟踪特征点位置的变化来跟踪目标，首先，从图像序列中提取目标的显著特征，如拐点、质心或有明显标记区域对应的点、线、曲线等；然后在连续图像帧之间寻找特征的对应关系，即进行特征匹配，最后计算运动信息，从而通过对特征的跟踪来完成对整个目标的跟踪。Polana将每个行人用一个矩形框封闭起来，封闭框的质心被选作跟踪的特征，在跟踪过程中，如果两人出现相互遮挡的情况，只要能区分质心的速度，就能成功地完成人体跟踪。

这种方法的优点是：即使场景中出现部分遮挡情况，只要目标的一些特征可

见，仍可以保持对运动目标的跟踪。由于只跟踪已选择的显著特征，上一帧目标的特征在下一帧图像中的可能匹配数目大大小于相关跟踪算法，处理的数据量小，并且由于特征的精心选取，使得在光照和目标几何形状发生变化时，也能进行目标跟踪，具有一定的鲁棒性。特征的选取对整个跟踪算法十分重要，关系到整个跟踪系统的可靠性和跟踪精度，它应具有对目标大小、位置、方向和照度变化不敏感的特点，如灰度局部极大值点、跟踪。其不足是要求独立而准确地初始化边界，而这在实际应用中往往很难实现。

2) 基于相关的跟踪

相关跟踪法，又叫模板匹配法，其主要思想是：将目标的基准图像（模板）

在实时图像中以不同的偏移值进行位移，然后根据一定的相似性度量准则对每一个偏移值下重叠的两个图像进行处理，计算两者的相关值，根据最大相关值确定实时图像中目标的位置。简单地说，就是在当前帧中寻找与上一帧目标相关性最大的区域。

相关跟踪法具有很强的噪声抑制能力，可以在很小的信噪比条件下工作，它

具有对有关目标的知识要求甚少、定位精度高、跟踪距离远、可靠性高和较强的局部抗干扰能力等优点，而且计算简单，易于编程和硬化。由于它只利用图像间的灰度相关性作为区域相似性的判断依据，对几何和灰度畸变十分敏感，光照强度变化或目标运动姿态发生变化等都将对算法产生较大的影响，计算量偏大。而且往往不能充分利用目标的几何特性，易产生积累误差，它适用于实时图像与参考图的产生条件较为一致，目标尺寸变化很小，景物与目标的相关性不强的场合。

3) 基于运动估计的跟踪

基于运动估计的跟踪方法是利用图像序列中目标的运动信息来对目标进行跟踪的一种方法。运动信息又称为光流，基于光流估计的方法，利用了灰度的变化信息，首先，从图像序列的灰度变化中计算速度场，一般需要计算灰度的一阶导数和二阶导数；然后利用一些约束条件从速度场中估计运动参数和物体结构。光流方法又分局部光流法和全局光流法，局部光流法能够准确的反映出运动边缘处的运动信息，但是对于图像中的弱纹理区域不敏感；全局光流法能够得到每个像素处的光流，但是对于运动边界处的光流变化不敏感。由于噪声、多光源、阴影和遮挡等原因，使得计算出的光流分布不是十分可靠和准确，实际景物中的速

度场不一定总是与图像中的直观速度场有唯一对应关系，且偏导数计算会加重噪声水平，计算复杂，使得基于光流的方法在实际应用中常常不稳定。

尽管目标跟踪算法可以大致分为上述几类，但是这些方法并不是孤立的，在进行目标跟踪时，为了保证跟踪的可靠性和准确性，常常混合使用几种算法以得到更好的跟踪效果。

1.3本文的具体结构安排

第一章绪论，详细阐述了目标跟踪的研究背景和意义，总结了国内外研究的发展现状，讨论了目前目标跟踪存在的困难和不足，指出了本文重点解决的问题。

第二章主要研究了帧间差分法、时间差分法和背景去除法及算法和各自的

适用范围。

第三章匹配方法和目标搜索算法，重点用最小平均绝对差值函数(MAD)做了跟踪算法实现跟踪。

第四章模板更新，由于目标的大小在变化及拍摄设备姿态的变化等导致

目标变化，因此必须采取模板更新，已保证跟踪精度。

第二章运动目标检测

目前，已经有许多标准的算法用于运动目标检测，它们具有不同的效果和复杂度。在实际应用中，运动目标的提取通常不是采用单一的检测算法，而是对某一算法进行改进或是综合运用几种算法以求达到更好的效果。无论采用哪种目标检测算法，都应该满足以下几个条件：能够准确地从图像序列中检测出运动目标；操作简便、快捷以及适应实时系统的要求；对天气、光照等环境变化不敏感，且对于摄像机振动或由其它情况引起的噪声有很好的鲁棒性；所需要的先验信息越少越好。

运动检测主要有三种方法：光流法、时间差分法和背景去除法。光流法在摄像机运动的条件下也能检测出独立的运动目标，然而大多数的光流计算相当复杂，不能够用于实时处理。时间差分检测法对于运动环境具有较强的自适应性，但一般不能完全提取出所有相关区域的像素点，在运动实体中容易产生空洞现象。背景去除法适用于固定摄像机的情形，它先为背景建立背景模型，通过将当前图像帧和背景模型进行比较，确定出亮度变化较大的区域，即认为是前景区域。这种方法计算速度很快，可以获得完整的运动区域，但对于场景中光照条件和噪声比较敏感，在实际应用中需要采用一定的算法维护和更新背景模型，以适应环境的变化。[10]

本章首先简单概述了目标检测算法，然后详细介绍了本文使用的自适应背景去除算法，接着针对阴影对目标检测的影响，本文从色彩和光照不变性的角度，分析和讨论了阴影的特性，提出了一个新的可用于阴影去除的算法，提高了阴影去除率，最后介绍了噪声处理和区域标记方法。

2.1检测算法及概述

运动目标检测就是对包含运动信息的图像序列进行适当地处理，从而去除静止的背景，检测出运动目标及其携带的运动信息，并对这些运动信息进行整合，得到关键参数，为视觉系统的后续阶段提供可靠的数据源。运动目标的检测原则

是要尽可能保留那些对视觉检测有重要意义的特征信息，同时最大限度地摒弃那些对运动目标检测无用的冗余信息。

人们总是希望有一个通用的运动检测算法，能适用于各种环境，在各种场景中都能很好地工作。但是，在实际应用中，由于动态场景的光照变化、阴影、目标之间的遮挡现象以及摄像机的抖动等问题的存在，要得到一个通用的运动目标检测算法是十分困难的，研究者不得不在算法的复杂度、可靠性以及实时性等方面综合考虑。目前，研究人员已经在这方面做了大量的研究，提出了许多方法。下面简单介绍目前常用的几种方法：

2.1.1连续帧间差分法

连续帧间差分法是将连续两帧进行比较，从中提取出运动目标的信息，基本运算过程如图2-1所示，

图2-1连续帧间差分法的示意图

首先，利用公式2-1计算第k帧图像与第k-1帧图像之间的差别，得到差分后的图像Dk;

其中：D(x,y)=fkk(x,y)-fk-1(x,y) （2-1） fk(x,y)，fk-1(x,y)为连续两帧图像，Dk(x,y)为帧间图像。

然后对差分后图像Dk使用图像分割算法(公式2-2)进行二值化处理，即认为当差分图像中某一像素的差大于设定的闭值时，则认为该像素是前景像素(检测到的目标)，反之则认为是背景像素;

⎧⎪0BackgroundRk(x,y)=⎨⎪⎩1Foreground'D(x,y)>T (2-2) D(x,y)≤Tk

按照上面介绍的连续帧间差分方法，我们对室外的运动目标进行了检测实验，实验结果如下图所示。由于本图帧之间的变化很小，因此选取相邻几帧来做

(a) (b)

(c)

图2-2采用连续帧间差分法的效果图

连续帧间差分方法在动态环境下的自适应性是很强的，但是这样分割出来的区域实际上是物体前后两个位置的“或”区域，比物体实际所在的区域要大。采用连续帧间差分方法检测目标时，需要考虑如何选择合适的时间间隔。[9] 一般时间间隔依赖于所监视的物体的运动速度。对快速运动的物体，需要选择较小的时间差，如果选择得不合适，最坏情况下目标在前后两帧图像中没有重叠，造成被检测为两个分开的物体;而对慢速运动的物体，应该选择较大的时间差，如果选择得不适当，最坏情况下目标在前后两帧图像中几乎完全重叠，根本检测不到物体。针对这些问题有许多的改进方法，例如提出三帧差图像法，利用三帧图像计算出两个差分图像，再令对应像素相乘。这种方法检测运动目标仍然存在不完整问题

Lipton等利用两帧差分法从实际视频图像中检测出运动目标，进而用于目标的分类与跟踪；一个改进的方法是利用三帧差分来代替两帧差分，如VSAM使用一种自适应背景减除与三帧差分相结合的混合算法；为了提高差分法的性能，Jain提出了累积图像差分法.

帧间差分法其主要优点是：算法实现简单、复杂度低、实时性高，由于相邻帧的时间间隔较短，对场景光照的变化不太敏感，受阴影的影响也不是很大，时间差分法对动态环境有较好的适应性。[1]

然而，在实际应用中目标检测的结果往往不太令人满意，其主要问题是：当目标表面存在像素均匀的大区域时，时间差分法将在目标的上述区域产生“空洞”而使目标被过度分割成多个区域，只能检测出运动目标的一部分；另外由于目标的运动，前一帧中被目标遮挡的背景部分在当前帧中将暴露出来，使得这部分背景也被认为是运动区域；同时这种方法所检测到的运动区域的大小与目标的运动速度有关，目标运动速度越大，检测出的区域就比实际的区域越大，而当目标运动很缓慢时，往往检测到的区域很小，甚至无法检测到目标的运动。

2.1.2背景去除法

背景去除法是目前运动目标检测中最常用的一种方法，它是利用当前帧图像和背景图像（参考帧图像）的差分来检测运动区域的一种技术，即将当前帧图像与背景图像相减，若差值大于某一阈值，则认为此像素点为运动目标上的一点，阈值大小决定了检测算法的灵敏度。[4]

在背景去除法中，背景图像的选取直接关系到最终检测结果的准确性。在理想情况下，即背景图像是完全静止的，而且具有运动目标的图像除了运动区域的像素值发生了变化，其余属于背景的部分保持不变。背景去除法可以简单地表示为：

D(i,jk= )I(K)(i,j)-I(K-1)(i,j) （2-3）

T⎧⎪Ik(i,j)Dki(j,≥) Mk=⎨ （2-4）)T⎪Dk(i,j

式中Dk (i,j)表示背景图像。

当前帧图像（a）背景图像（b）

背景去除后的目标（c）

图2-3采用背景差分法的效果图

与时间差分法相比，背景去除法能够提供比较完整的运动目标信息，得到较准确的目标图像，而且速度快，能适应实时系统的要求。但随着时间的推移，对光照和外部条件造成的场景变化比较敏感，会出现许多噪声点，影响目标检测结果。

在实际应用中，场景中的背景很复杂，存在各种各样的干扰，而且背景随着时间不断变化，所以适用于整个图像序列的理想背景是不存在的，因此使用背景去除法的主要困难在于背景模型的建立和维护。一般来说，背景模型需满足以下要求：

1) 能适应背景随时间的缓慢变化，如一天当中不同时间里的光照变化；

2) 能适应背景物体的变化，如场景中移入新的物体，背景中的物体移出场景等变化；

3) 背景模型能描述背景中的一些较大扰动，如树叶晃动、日光灯闪烁等；

4) 能适应光照亮度的突变；

5) 能够消除前景物体的阴影；

6) 能够处理前景物体与背景相似的情况，如人体衣服的颜色与背景中某个物体的颜色相似。

对于这些问题，可能的解决办法是：不断更新背景模型，使得背景模型具有自适应的功能，解决背景物体发生变化的影响和光照渐变的影响；对于室外树叶的摆动、日光灯的闪烁等情况，可以建立多模的背景模型，如利用混合高斯模型对背景像素建模；对于前景和背景颜色相似的，可以利用能够测量深度的摄像机捕获图像以及图像中对应于各像素点的深度信息；虽然阴影使得像素点的强度变化比较大，但是其色度信息几乎保持不变，可以利用色度信息把阴影从前景中消除。

目前许多研究人员致力于背景模型的研究，希望能够减少动态场景对于准确检测的影响。主要有基于统计的模型（高斯模型）和基于预测的方法（卡尔曼滤波、维纳滤波等）。如Haritaoglu等利用最大、最小强度值和最大时间差分值为场景中的每个像素进行统计建模，并且进行周期性的背景更新；McKenna等利用像素色彩和梯度信息相结合方法来建立自适应背景模型。

2.1.3光流法

光流是运动物体被观测面上的像素点运动产生的瞬时速度场，它包含了物体三维表面结构和动态行为的重要信息。一般情况下，光流由相机运动、场景中目标的运动或两者的同时运动产生的。当场景中有独立的运动目标时，通过光流分析可以确定运动目标的数目、运动速度、目标距离和目标的表面结构。光流研究已经在环境建模、目标检测与跟踪以及视频事件分析中得到了广泛的应用。光流计算方法大致可以分为三类：基于匹配的方法、基于频域的方法和基于梯度的方法。[9]

光流法的基本原理是：给图像中的每一个像素点赋予一个速度矢量，形成一个图像运动场，在运动的一个特定时刻，图像上的一点对应三维物体上的某一点，这种对应关系可由投影关系得到，根据各个像素点的速度矢量特征，可以对图像进行动态分析。如果图像中没有运动目标，则光流矢量在整个图像区域是连续变化的，当物体和图像背景存在相对运动时，运动物体所形成的速度矢量必然和背景速度矢量不同，从而检测出运动物体的位置。

设图像上的点(x, y)在时刻t的亮度为f (x,y,t)，经过时间Δt后对应点的亮度值为f(x+Δx,y+Δy,t+Δt)，当Δt→0时，可以认为亮度不变，于是有：

f(x,y,t)=f(x+Δx,y+Δy,t+Δt) （2-5）上式用泰勒公式展开得：

,y+ ,y+t )t= f(x+ x∂fdx∂fdy∂f(f,x,ε + （2-6） ∂xdt∂ydt∂t

由于Δt→0，因此忽略二阶无穷小项，得：

,y+ ,y+t )t= f(x+ x(f,x , y t （2-7）

所以：

即：

其中， u=∂fdx∂fdy∂f++ε∂xdt∂ydt∂t=0 （2-8） fxu+fv+yf=0 （2-9） tdx∂f, v=分别为x和y方向的光流分量。 dt∂y

式(2-9)给出了光流计算的一个方程，又称为光流约束方程（Optical

FlowConstraint Equation）。光流约束方程对每一个像素点来说都是一个含有两个变量的方程，而只有一个约束方程，不能同时确定光流场的两个变量，这种不确定问题称为孔径问题（Aperture Problem）。由于孔径问题的存在，使得仅通过光流约束方程而不用其他信息是无法计算图像中某点的光流，为此人们提出了各种方法来克服这一问题。从不同的角度出发，可以引入不同的光流分析方法，如：使用光流全局平滑性假设来求解光流的Horn-Schunck方法；使用一个模型通过最小二乘法来拟合像素点领域内的光流值的Lucas-Kanade局部调整法；利用二阶导数求光流的Nagel方法和利用鲁棒回归算法来计算光流克服遮挡时运动边界的信息不可靠问题的鲁棒计算法等。关于光流更加详细的讨论可参见Barron、高文、马颂德等的文章。

基于光流方法的运动检测采用了运动目标随时间变化的光流特性，由于光流不仅包含了被观测物体的运动信息，而且携带了有关物体运动和三维结构的丰富信息，所以该方法不仅可用于运动目标的检测，甚至可直接用于运动目标的跟踪，在摄像机运动的前提下也能检测出独立的运动目标。然而在实际应用中，由于遮挡性、多光源和噪声等原因，使得光流约束方程的灰度守恒假设条件得不到满足，不能求解出正确的光流场；并且光流场与运动场并不一一对应，如球体在摄像机前面绕中心轴旋转，其明暗模式并不随着表面运动，此时光流在任意地方都等于零，而运动场却不为零；若球体不动，光源运动，则光流场不为零，而运动场却等于零。同时大多数的光流计算方法相当复杂，计算量巨大，除非有特别硬件支持，否则不能满足实时要求。 [1]

第三章运动目标跟踪方法

3.1引言

运动目标跟踪是近期视觉领域内一个备受关注的课题，图像中运动目标的跟踪技术通常是通过目标检测来进行跟踪。运动目标的跟踪就是在视频图像的每一幅图像中确定出我们感兴趣的运动目标的位置，来实现目标的跟踪。在机器视觉研究领域里，随着技术不断发展，自动目标跟踪(ATR)越来越受到研究者的重视，具有广阔的应用前景。运动目标的跟踪在工业控制、军事设备、医学研究、视频监控、交通流量观测监控等很多领域都有重要的实用价值。特别在军事上，先进的武器导航、军事侦察和监控中都成功运用了自动跟踪技术。跟踪的难点在于如何快速而准确的在每一帧图像中实现目标定位。

本章首先在第二节中概括介绍目标跟踪的几种方法。在本文中介绍运动目标的主要特征，具体对基于目标区域特征进行分析，及常见的运动目标搜索算法，重点分析了跟踪原理和搜索算法。

3.2运动目标跟踪方法

图像中运动目标的跟踪技术通常有两种算法思想通过目标识别来进行跟踪和通过运动检测来进行跟踪。使用目标识别的方法进行跟踪通过在每一帧的图像中识别研究的物体来确定物体的位置来实现目标的跟踪。这种方法包含了目标识别和目标匹配两部分。而使用运动目标检测的方法来发现并确定运动目标的位置进行跟踪，这种方法不考虑目标的形状、尺寸，可以检测任何物体。近年来，人们从这两种基本思想或结合这两种思想的角度出发，提出了大量的跟踪算法。这些算法在实时性、可靠性和精确性上都有改进。现有的目标跟踪方法有下面三类:基于特征匹配的跟踪方法、基于区域匹配的跟踪算法、基于模型匹配的跟踪算法。

3.2.1基于特征匹配的跟踪方法

基于特征匹配的跟踪方法不考虑运动目标的整体特征，即不关心目标是什么，只通过目标物体的一些特征来进行跟踪。由于图像采样时间间隔通常很小，可以认为这些特征在运动形式上是平滑的，因此可以完成目标的整体跟踪过程。无论是刚体运动目标还是非刚体运动目标，基于特征匹配的方法进行目标跟踪时包括特征的提取和特征匹配两个过程。在特征提取中要选择适当的跟踪特征，并且在下一帧图像中提取特征;在特征匹配中将提取的当前帧图像中目标的特征与特征模板相比较，根据比较的结果来确定目标，从而实现目标的跟踪。例如使用特征点对人体进行运动跟踪[33〕。该方法把需要跟踪的每一个人用一个矩形框封闭起来，封闭框的质心被选择为目标的跟踪特征。除了用单一的特征来实现跟踪外，还可以采用多个特征信息综合在一起作为跟踪特征，来提高跟踪的效果。利用多个目标特征联合进行跟踪的算法，如StnaBicrhfield提出了将目标的颜色直方图模型和灰度梯度模型联合的方法，实现对人头部的实时跟踪；H.chne和.TLiu联合目标的颜色概率分布和边缘密度信息完成对非刚体目标的跟踪。[3] 如果运动目标物体简单，可以将整个目标作为特征来进行跟踪，这种方法也被称为模板匹配。[4]

3.2.2基于区域匹配的跟踪方法

基于区域匹配的跟踪方法是把图像中运动目标的连通区域的共有特征信息作为跟踪检测值的一种方法。在连续的图像中有多种区域信息，例如颜色特征、纹理特征等等。这种方法不需要在视频序列的图像中找到完全相同的特征信息，通过计算区域的原始目标之间的相关性来确定跟踪目标的位置。基于区域的跟踪方法我们可以选取整个区域的单一的特征来实现跟踪，但是实际跟踪过程中单一的特征不太好选择，所以一般采用运动目标的多个特征来进行跟踪。

例如，Wrell利用小区域特征进行室内单人的跟踪。该方法将人体看作由头、躯干、四肢等身体部分所对应的小区域块的联合体，通过分别跟踪各个小区域块最终完成对整个人体的跟踪。

基于区域的跟踪与基于区域的分割过程联系较为紧密，所以也可以利用分割同跟踪相结合的方法来进行跟踪。例如Frnaoc提出的区域跟踪方法依赖于以前的检测来区分运动目标，然后跟踪目标。运用滤波跟踪技术精确估计了区域几何

形状和速度。Jgrea等人提出的区域跟踪算法不仅利用了分割结果来给跟踪提供信息，同时也能利用跟踪所提供的信息改善分割效果，把连续帧的目标匹配起来达到跟踪目标的目的。[4]

3.2.3基于模型匹配的跟踪方法

基于模型匹配的跟踪方法是用模型来表示目标物体，也就是建模，然后在图像序列中跟踪这个建好的模型来实现目标的跟踪。对于刚体目标来说，其运动状态变换主要是平移、旋转等，可以利用该方法实现目标跟踪。但是实际应用中跟踪的物体往往是非刚体的，目标确切的几何模型不容易得到，因此可以利用变形轮廓模板来匹配到目标来进行跟踪。目前有两种可变性模型:一种是自由式的可变形模型，主要满足一些简单的约束条件(连续性、平滑性等)用来跟踪任意形状的运动目标。另一种是参数可变的模型。这种方法用一个参数公式，或一个变形公式来描述目标物体的形状。[1]

在前文提到的跟踪方法中，我们可以知道运动目标的特征是一个重要的跟踪依据，在很多跟踪算法中都有目标特征提取这一环节。所提取的目标特征必须在环境变化、目标自身变化或者运动改变时，仍然能够将运动目标描述出来。图像目标的特征大致分为：

(1) 图像的视觉特征，如图像的轮廓、边缘、形状、纹理和区域等特征;

(2) 图像的统计特征，如颜色直方图、各种不变矩等特征;

(3) 图像的变换系数特征，如付立叶描述子、小波变换系数和自回归模型等

特征;

(4) 图像的代数特征，如图像矩阵的奇异值分解等。

3.3运动目标搜索算法

运动目标跟踪算法中，目标的特征提取之后，就是要选择合适的搜索匹配算法来实现目标在每帧图像中的定位。要能够准确地、实时地确定目标的位置搜索算法很关键。经典的搜索匹配算法包括有绝对平衡搜索法、归一化相关法。利用图像的边缘特征搜索匹配算法等。

3.3.1绝对平衡搜索法

绝对平衡搜索法就是直接使用模板图像和待匹配图像上的搜索窗口之间的像素灰度值的差别来表示二者之间的相关性，并且利用阂值来界定相关性，进而决定匹配效果。

绝对平衡搜索法有三种算法:最小均方误差函数(MES)，最小平均绝对差值函数(MAD)和最大匹配像素统计(MPC)，它们的定义分别如下:[5] （3-1）

1MN

MAD(i,j)=∑∑T(m,n)-F(m+i,n+j) （3-2） M*Nm=1n=1

MPC(i,j)=∑∑N(i,j) （3-3）

m=1n=1MN

⎧1T(m,n)-F(m+i,n+j)

以上各式中T(m，n)为模板图像灰度值，F(m，n)为待匹配图像灰度值，依据(3一7)式，t为预设闭值，小于闭值t的像素被归入匹配像素，否则被归入非匹配像素。[11]

3.4绝对平衡搜索法实验结果

第1帧第7帧

第15帧第33帧

第41帧第53帧

第65帧第77帧

第80帧第82帧

第90帧第97帧

第104帧第110帧

图3-4-1采用最小平均绝对差值算法的跟踪效果图

绝对平衡搜索法虽然简单，但是有明显的局限性:一旦待匹配图像或模板图像之一的灰度值发生线性变化时，这种算法就会失效。同时，由于模板和每一幅待匹配图像都有不同的灰度值，所以闭值也会很难选定。并且跟踪时间很长，跟踪100张序列图像，用时 24.614秒即0.24614秒每张。

3.4.1归一化互相关搜索法

归一化互相关匹配算法(Nomral1zedCorerlatino一NC)是一个经典的匹配算法，它是通过计算模板图像和待匹配图像的互相关值来决定匹配的程度，寻找互相关值最大的搜索窗口的位置作为目标新的位置。互相关定义一般有如下的两种形式:[6]

NC(i,j)=∑∑T(m,n)F(m+i,n+j)m=1n=1

2MN∑∑Tm=1n=1MN(m,n)∑∑F(m+i,n+j)m=1n=1MN （3-5） 2

NC(i,j)=

∑∑[T(m,n)-T(m,n)][F(m+i,n+j)-F(m+i,n+j)]MN-- （3-6） 1MN

式中：T(m,n)=T(m,n) （3-7） ∑∑M*Nm=1n=1-

1MN

F(m+i,n+j) （3-8） F(m+i,n+j)=M*N∑∑m=1n=1-

归一化互相关匹配算法对线性变换有比较好的“免疫性”〔但是由于图像中的自相关值都比较大，因此在互相关的计算过程中，相似性形成以模板的实际位置为中心的平缓峰，往往无法检测到准确的尖峰位置。为了克服这个问题，可以对待匹配图像和模板作边缘处理，这么做是因为当图像中像素点相关时，两副图像的相关性实际是集中在它们的边缘信息上的。归一化互相关匹配算法的另一个缺点是计算耗时很大，所以可以考虑使用加速算法对其改进，如使用序贯相似度检测算法(SSAD)和金字塔层次算法等，本质上这些算法是通过预测一个能在一帧的大致位置来减小搜索次数和时间。[1]

3.5归一化互相关搜索法实验结果及分析

第1帧第4帧

第9帧第15帧

第23帧第31帧

第44帧第56帧

第68帧第110帧

第151帧第179帧

第200帧第239帧

第251帧第273帧

第307帧第321帧

第330帧第339帧

图3-5采用归一化互相关匹配算法的跟踪效果图

实验结果分析，在第307帧时出现跟踪目标丢失，绝对平均搜索算法在200帧目标就丢失了。因此可知，采用归一算法跟踪较绝对平均搜索算法的跟踪精度更高。跟踪100张连续的序列图像，NC算法41.75秒，及0.4175秒每张。

第四章模板更新与轨迹预测

4.1模板更新简述及策略

由于照相机与目标的相对运动, 视野中的目标可能出现大小、形状、姿态等变化, 加上外界环境中的各种干扰, 以及随着时间推移, 所要跟踪的目标和目标所在的场景都发生了变化, 这时我们所要跟踪的目标点会发生误差, 严重情况下, 有可能丢失跟踪目标。为了保证跟踪的稳定性和正确性, 需要对模板图像进行自适应更新。[7]

模板图像是相关匹配跟踪过程中进行相似性度量的基准, 由于视野中的目标可能出现大小、形状、姿态等变化, 为了对所期望的目标进行跟踪, 用于对每一被跟踪图像进行相关计算的模板图像必须根据相关峰位置的变化进行条件更新。这一过程就是不断地根据模板图像与搜索场景图像的相关结果来自适应更新模板图像。

由于模板图像是从前一帧图像中抽取的, 而对应像素距离计算却是用模板图像与下一帧图像进行对应像素距离运算, 这样得到的最大相关曲面峰值位置即为最佳的匹配位置。由于照相机目标间的相对运动, 目标可能出现大小、形状、姿态等变化, 加上外界环境的各种干扰, 如噪声、遮挡等。还有图像处理最小计量单位的精度问题。这样对应像素距离测度的图像匹配跟踪算法得不到绝对最佳的匹配位置, 存在匹配误差是必然的。因此正确的模板图像的更新和修正方法是维持长时间稳定跟踪的关键。

模板图像是对应像素距离测度的图像匹配跟踪过程中的基准, 考虑到目标区域图像存在变化, 模板图像的更新和修正是必要的。模板图像不修正或修正间隔时间过长, 将无法适应场景的变化, 而模板图像修正过快或修正方法不当也

会使匹配误差急剧增加从而引起误配发生, 丢失匹配跟踪目标。因此对模板图像进行合理的更新和修正是图像匹配跟踪的关键。选择合适的模板图像更新和修正策略, 可以在一定程度上克服上述变化对图像匹配跟踪结果的影响。在序列图像匹配跟踪过程中, 若单纯地利用当前图像的最佳匹配位置处的图像来作为模板图像进行下一帧图像的匹配, 则匹配跟踪结果很容易受某一帧发生突变的

图像的影响而偏离正确的匹配位置, 从而使误配现象发生。因此, 根据对应像素距离测度的图像匹配跟踪算法的特点, 可以考虑增加一个判别准则, 这个准则就是对帧内及相邻序列帧间的匹配结果进行评估而得出的匹配跟踪置信度, 根据这个匹配置信度来分不同情况决定如何修改或更新模板图像。如果当前帧图像匹配质量很差, 则该帧图像数据不进人模板图像的修正而若当前祯图像匹配质量很好或比较好时, 则该帧图像数据进人模板图像的修正。这就是基于滤波与预测的模板图像更新和修正方法, 亦即基于匹配跟踪置信度的加权自适应模板图像更新算法。下面给出几种模板更新的策略。[8]

1、中心加权策略

我们认为一般感兴趣的区域多位于模板图像的中心位置，而且可以假设图像模板的中心部分在帧间变化比较小，因此可以对模板进行中心加权，使模板像素在匹配中的贡献率从模板中心到边缘由大变小，提高匹配对噪声和目标形变的影响，

比如可采用如下的加权系数：w(i,k)= i 和 j 是以模板中心为原点的坐标。经过中心位置加权的匹配能提高相关峰的陡峭度，较好地克服目标的小范围畸变，以及目标边缘被部分遮挡的情况。

2、加权生成新模板

按照一个固定的权值对当前新位置和旧模板加权生成新模板的方法是不够合理的，由于没有考虑到匹配效果的好坏，因而可能会使目标跟踪的精度降低。我们可以通过度量模板图像和实时图像的匹配度来确定如何对模板图像进行更新，获得更新后的模板。其更新方法如下：

T(x,y)=w1T1(x,y)+w2T2(x,y) (4-1)

其中w1 和w2 分别是加权系数，T 是旧的模板图像，T1 、T2是最佳匹配位

置对应的实时图像中的子图，T是更新后的模板图像。

3、线性组合法

根据目标的短时平稳性运动规律和场景变化的特点，可把目标识别模板看成一个 m 阶马尔可夫信号。在实际实现中，当前帧的目标识别模板可用前面帧的目标识别模板的线性组合得到，如下所示

Tk(x,y)=w1Tk-1(x,y)+w2Tk-2(x,y)+...wmTk-m(x,y) (4-2)

其中w1+w2+...wm=1，1≤m

在上式中，通过调整权值的大小，就可改变识别模板变化的灵活性和平稳性，当λ>λ12>...>λm 时，模板的更新就更侧重于灵活性，但如果图像出现瞬时

干扰时，可能影响系统稳定性；相反，如果λ

相对稳定，当目标特征变化较快时，模板的更新可能跟不上目标特性的变化。因此，在具体的应用中，应根据不同的实际情况，选择合适的权值，使系统整体性能得到提高。

4、最佳模板替换法

这里所说的最佳模板是指在一定帧间隔范围内，与目标识别模板匹配最好的目标图像区域。通过调整帧间间隔数也能比较好的调整跟踪系统的灵活性和稳定性。实验证明它既能很好的适应目标的快速变化，又对目标的瞬时遮挡具有较好的抗干扰能力。

为了消除最大相关峰位置与目标中心位置存在的误差，下面给出一种修正的自适应模板更新方法，对从图像中抽取的模板图像计算目标中心位置，对抽取的模板图像中心位置和跟踪位置进行修正，并以此位置为下一帧模板图像的中心和实际跟踪位置，从输入图像中抽取模板图像，用该模板图像与下一帧图像进行相关运算。

图4-1模板更新示意图

4.2轨迹预测

根据目标在运动过程中具有轨迹连续性的特点，利用目标过去的位置信息预测当前位置，然后在预测点周围一定范围内进行匹配，这样既能减少计算量，也能排除其它物体对跟踪的影响，保证匹配的可靠性；另一方面，当目标的背景快速变化、视场内有其它遮挡物出现时，会造成目标被短暂遮挡从而短时消失，若

干秒后又正常复出，按照正常的跟踪策略，跟踪过程中就会出现目标丢失而导致

系统紊乱，如果采用预测跟踪处理技术，预测出目标在下一步可能的位置，等到

目标再次出现时，仍可对其进行稳定跟踪而不至于丢失目标。在跟踪系中，通常

采用记忆外推跟踪技术，本章我们将深入探讨该技术的有关问题。

4.2.1线性预测

设原函数f (t)在N个顺序时刻的测量值为f (t),(1,2,...N)，且f (t)可以用：

Y=a0+a1t （4-3）

⎡a0⎤ Y=[1t]*⎢⎥ （4-4） ⎢⎣a1⎥⎦

作为最佳线性逼近，可写为

对N点估计的均方误差为：

E( ε1 =f(t1)-Y=f(t1)-a0-a1 t （4-5）2ε3

i（4-6） )=∑[f(ti)-a0-a1ti]

i=1N

最佳逼近即是上式取最小值，经过最小二乘法可得：

NN⎡N2N⎤f()-f()tti⎥i⎢∑ti∑ti∑t∑ii=1=i1=i1=i1⎥⎡a0⎤⎢D⎥ （4-7） ⎢⎥=⎢

N NN⎢⎥⎢⎣a1⎥⎦⎢-∑∑f()+N∑f()⎥ti=i1ti=i1titii=1⎢⎥⎢⎥⎣D⎦

其中：

D=N∑ti-(∑ti) （4-8）

i=1i=12NN2

式（3－3）和（3－4）就是f (t)在最小均方误差意义下的N点最佳线性逼近

的通解。

由以上线性逼近可以很方便地得到预测器表达式。如用k -2,k-1以及k帧的

位置去求取k+1帧的位置，即用过去三帧的位置（N=3的情况）预测下一帧的位

置，按上述的表示方法有

t1=1，t2=2，t3=3以及f(t1)=f(k-2，)

f(t2)=f(k-1)，f(t3)=f(k)，对于k+1帧而言，相当于t=4的情况，故求取

k+1帧的位置为：

i a4 （4-9）将上述t及f(t)的值分别代入（4－5）和（4－6）可求出a，a的值，1i01f((k+^1)k/=)=+a0+at1k+1a0

然后将

其代入（4-7）式可得：

f((k+^11)k/=3[f4k+()fk-(-1)f2k- ( 2 ) ] （4-10）

上式就是三点线性预测的公式，当N取不同的整数值时可构成不同的预测

器，如下表所示：

4.2.2平方预测器

原函数f(t)在N个顺序时刻的测量值仍为f(ti) (i=1,2,…,N)，且f(t)可以用

⎡b0⎤⎢⎥2tt⎤* （4-11） ⎦⎢b1⎥⎢⎥⎢⎣b2⎥⎦ Y=⎡1⎣

测量值与逼近值之间的误差为

-b ∆εi=f(ti)-b0-bt1it22i （4-12）

对N点估计的均方误差为

E(∆εi)=∑[f2i=1 (ti)-a0-a1ti] （4-13）2

取最佳逼近情况，即经最小二乘运算后可得：

N⎡f(ti)+∑⎢c11⎡b0⎤⎢i=1

N⎢⎥1⎢f(t)+ ⎢b1⎥=⎢c1∑2i⎢⎥A⎢i=1

N⎢⎣b2⎥⎦⎢f(ti)+∑⎢c13⎣i=1c∑NNN21i=1f(t)+tiif(it)+itf(t)+tii∑cc∑c∑22i=123i=12⎤f()31it⎥iti=1⎥N2⎥f() （4-14） ∑c3i=12it⎥it⎥N2⎥f()∑c33it⎥iti=1⎦N

式中A≠0

NN⎡⎤2N∑ti∑ti⎥⎢i=1i=1⎢⎥NNN⎢23⎥ A=⎢∑ti∑ti∑ti⎥ （4-15）

i=1i=1⎢i=1⎥NNN⎢234⎥⎢∑ti∑ti∑ti⎥

i=1i=1⎣i=1⎦

其中cij (j,k=1,2,3)是行列式的A余子式。式(4.25)和式(4.26)是f(t)在最小方

差意义下的N点最佳平方逼近得通解，用与前面类似的方法可求得平方预测器表

达式。[6]

4.3实验结果及分析：

第1帧第39帧

第51帧第91帧

第122帧第149帧

第174帧第194帧

第221帧第253帧

第279帧第295帧

第317帧第343帧

第373帧第407帧

第451帧第478帧

第503帧第531帧

第556帧第590帧

第608帧第615帧

图4-1采用归一化互相关匹配算法加轨迹预测算法的跟踪效果图

实验结果分析：对比未加轨迹预测的归一算法和MAD算法和加了轨迹预测

的效果图，未加轨迹预测在307帧时目标就跟踪丢失，而加了轨迹预测的在605

帧以后，才出现目标不见。因此，可见加了目标的轨迹预测可以使跟踪精度增加。

采用加了轨迹预测的算法，可以大大减少搜索时间。跟踪100张序列图像，用时

14.121秒，即0.141231秒每张。较单一的归一化互相关匹配算法的跟踪时间缩

短，是因为采用轨迹预测后搜索区域变小，匹配次数减少。

致谢

本课题的研究工作是在导师王红梅教授的悉心指导下完成的。王老师渊博

的知识、严谨的学风和求实的精神给我留下了深刻的印象。在学习、科研方面王

老师给了我们精心的指导和热情的帮助，并提出了很多宝贵的意见。这必将为我

们以后的工作和学习打下良好的基础。在此，我要向辛勤培养我的王老师表示最

衷心的感谢!

完成毕业设计（论文）期间，西北工业大学明德学院信息与控制科学系的各

位老师都给予了我很大的帮助，在此，向他们表示衷心的感谢!

在课题的研究过程中，吴挺、张腾两位同学给了我很大的帮助，在此，对他

们表示真诚的感谢!

在此，向今天前来参加我论文答辩的各位老师表示衷心的感谢。

参考文献

[1] 王琳视频运动目标跟踪中有关问题的研究西北大学 2006年5月

[2] 代凯乾单目图像序列的目标跟踪算法研究国防科学技术大学研究生院

2006年11月

[3] 宗伟新运动背景下运动目标的跟踪算法研究西安工业大学 2007年5月

[4] 赵瑶运动目标与跟踪算法研究山东大学 2008年5月

[5] 罗军、江和平、沈振康基于匹配跟踪置信度的自适应像素距离和图像匹

配跟踪算法 2008年2月

[6] 高峰雷志勇易娟《国外电子元器件》基于模板匹配的图像跟踪技术

西安工业大学电子信息工程学院 2008年第10期

[8] 王红梅博士后研究报告目标跟踪算法的研究西北工业大学

[9] 徐加云图像序列中运动目标与跟踪算法的研究南京理工大学 2008年6月

[10] 王宾视频序列中运动的目标检测与跟踪有关问题的研究西北大学

2002年4月

[11] 孙仲康沈振康数字图像处理与其应用北京：清华大学出版社

1999年3月

毕业设计小结

设计论在完成之际，特将在设计过程中的做法和得失作以总结。本论文针对运动目标的跟踪问题做了相关工作。在目标检测中，我们研究了几种常用的方法：帧差法、背景差分法。重点实验验证了帧差法、背景差分方法的效果，帧差法基本能完整的检测出目标，而且它的算法简单，基本满足我们后面目标跟踪的需要。关于背景差分法效果的问题，主要是因为这种方法要求提取的背景和要搜索的图像背景要完全一致，而我们获得的背景的方式决定了不可能获得完全一模一样的背景图像。因此我们在本论文中就把帧间法作为主要的检测方法。

在目标跟踪算法中，重点分别研究了两种常用的搜索方法：绝对平衡搜索法（MAD）和归一化互相关搜索法(NC)。单独使用MAD算法和NC算法都不能完全准确跟踪目标，因为图像的背景在不断变换，致使图像中某些位置像素的相关性与模板太接近，算法无法判断目标的准确位置，导致目标跟踪丢失。基于这种情况，我们引入了目标轨迹预测算法。轨迹预测算法我们主要研究了常用的两种线性预测和平方预测算法。并将线性预测算法和归一化算法（NC）结合起来对目标进行重新跟踪。最终全部图像的目标都被准确跟踪到，提高了跟踪进度，而且还大大减少了跟踪算法的搜索时间。这就证明我们研究的这种方法能满足对目标跟踪的准确性和实时性。

不足之处是对于运动速度很高的目标和非刚性的运动目标，我们前面的方法就无能为力了。因此我们要在以后的学习要不断的学习研究。