论文(设计)-基于声信号人耳听觉谱特征和水下目标识别

基于声信号人耳听觉谱特征和SVME

的水下目标识别

杨宏晖1 彭圆2 曾向阳1

摘要利用人耳听觉谱特征模拟人耳听觉系统的特性，提取了水下目标信号的人耳听觉谱特征，设计了基于支持向量机自适应增强集成算法用于水下目标的分类识别算法。仿真实验证明，人耳听觉谱特征可有效用于水下目标识别，支持向量机自适应增强集成算法比单个优化的支持向量机分类器的正确识别率高5.96％～9.60％。关键词人耳听觉谱特征水下目标识别支持向量机集成

1 引言

长期以来，为了提高水下目标识别的正确率, 国内外研究人员从不同的角度对水下目标辐射噪声原始信号进行了分析和研究, 提取了各种水下目标特征。提取的水下目标特征主要有以下几类：时域波形特征、频域分析特征、时频分析特征、非线性

[5][6-7]

特征和听觉特征。这些特征各有特点：时域波形特征的主要特点是方法简单、实时性好。但水下目标信号时域波形结构复杂，难以提取具有高分类信息的波形结构特征。频域分析特征的特点是技术成熟、方法简单, 而且谱信息中包含明确的物理概念，但适合处理线性、平稳信号。时频分析方法提取的特征可以更好地反映目标的时域和频域特征。但小波分析算法较为复杂，存储量、运算量大，计算速度慢，实时性差。而且小波分析适合处理非平稳信号，处理非线性信号能力较弱。我国学者的研究表明:舰船噪声有混沌现象，舰船噪声极限环有混沌行为，舰船辐射噪声的非线性表明同类目标具有相似性，不同类目标具有可分性。但是在实际的随机噪声中，不存在严格的分形信号，大多数水声信号只是在某种尺度范围内具有分形特征。因此，分形与混沌方法仅是识别特征的补充。

众所周知，依靠人耳极其灵敏的听觉系统和长期在实践中积累的经验来判断水下目标类型仍然是水下目标识别的重要途径之一。目前模拟人耳听觉系统进行水下目标识别的研究报道很少。国内外研究人员提取了水下目标辐射噪声信号的听觉特征、语音特征及心理声学参数特征。利用这些特征可以识别目标的类型，甚至可以识别目标的材质。这类特征的主

[6-7][5]

[4]

[2-3]

[1]

[2-3]

[4]

要特点是适于处理非线性的水声信号，而且原理简单，计算快速，具有较好的实时性。但这方面的研究工作还有待于进一步的深入。

本文提出了根据人耳听觉模型提取水下目标信号的人耳听觉谱特征的方法；并提出了支持向量机自适应增强集成算法用于水下目标的分类识别。仿真实验结果表明，本文提出的水下目标信号听觉谱特征提取方法简单有效，运算速度快，人耳听觉谱特征可有效用于水下目标识别，支持向量机自适应增强集成算法比单个优化的支持向量机分类器的正确识别率高5.96％～9.60％。

2 人耳听觉感知模型

人耳可以听到频率在20Hz ～20KHz 范围内的声音。人耳听觉系统是一个音频信号处理器，可以完成对声信号的传输、转换以及综合处理的功能，最终达到感知和识别目标的目的。人耳听觉系统有两个重

[8]

要的特性，一个是耳蜗对于声信号的分频特性；另一个是人耳听觉掩蔽效应。 2.1耳蜗的分频特性

当声音经外耳传入中耳时，镫骨的运动引起耳蜗内流体压强的变化，从而引起行波沿基底膜的传播。不同频率的声音产生不同的行波，其峰值出现在基底膜的不同位置上。频率较低时，基底膜振动的幅度峰值出现在基底膜的顶部附近；相反，频率较高时，基底膜振动的幅度峰值出现在基底膜的基部附近（靠近镫骨）。如果信号是一个多频率信号，则产生的行波将沿着基底膜在不同的位置产生最大幅度。在每一声音频率上，随着强度的增加，基底膜运动的幅度增大，

并且带动更宽的部分振动。从这个意义上讲，耳蜗就像一个频谱分析仪，基底膜可以看成是一组频带重叠的非线性带通滤波器，这组带通滤波器将整个频带划分为若干个不等宽频带，称为临界频带。耳蜗的分频能力，可以用一组带通滤波器来实现。 2.2人耳听觉掩蔽效应

人耳听觉掩蔽效应是一个较为复杂的心理和生理现象，人耳不仅在频域上有掩蔽效应，在时域上也有掩蔽效应。人耳对声音的感觉主要是由于声音引起基底膜不同部位的振动，所以一个较大声音引起一个位置产生较大振动的同时，会使其前后位置产生相应小的振动。如果另一个声音的频率对应于该位置且强度较弱，则该声音听不到，这就是声音的频域掩蔽。时域掩蔽效应是一个声音的人耳听觉感受被另一个声音（同时或不同时进入人耳）影响的现象。掩蔽效应是听觉系统的一个重要特性，它表明了人的听觉系统对频率和时间分辨力的有限性。为了描写这种掩蔽的效果，Zwicker 等引入了临界带宽的概念。一个纯音可以被以它为中心频率，且具有一定频率带宽的连续噪声所掩蔽，如果在这一频带内噪声功率等于该纯音的功率，这时该纯音处于刚能被听到的临界状态，即称这一带宽为临界带宽。一个临界带宽可以用巴克(Bark)来表示。在20Hz -16KHz 范围内的声音信号可以分为24个Bark 。临界频带与频率是非线性关系。

3 听觉谱特征提取

根据生理声学和心理声学以及语音信号处理的研究成果，我们提出一个基于人耳听觉感知模型的声音信号听觉谱特征提取算法用于水下目标识别，听觉谱特征具体提取过程如图1所示。

图1 听觉谱特征提取原理图

这个人耳听觉感知模型也应用于语音信号处理

的感知线性预测算法 [9]

。文献[7]研究了感知线性预测算法在水下目标识别中的应用。感知线性预测算法将经过图1所示步骤得到的听觉谱信号再进行IDFT 变换得到信号短时自相关函数，接着用全极点模型来

逼近信号短时自相关函数（线性预测分析），特征向

量是全极点模型预测多项式的一组系数。本文提出的基于听觉模型的听觉谱特征提取算法利用人耳听觉感知模型直接计算声信号的听觉谱，用于描述水下目标，具有原理更加简单，计算量小，计算速度更快的

特点，更易满足识别任务对时间的要求。

具体实现过程如下：

（1）对水下目标信号进行短时傅立叶变换，计算其功率谱P (ω) ；

（2）临界频带分析

首先将P (ω) 进行频域到Bark 域的转

Ω(ω) =6In (ω/1200π (1)

其中，ω是以rad /s 为单位的角频率；Ω是以Bark 为单位的Bark 域频率。

然后将Bark 域的功率谱P (Ω) 与临界频带滤波器组曲线Ψ(Ω) 相卷，临界频带滤波器组曲线如式（2）所示。

⎧

⎪0Ω

102.5(Ω+0.5) -1.3≤Ω≤-0.5

Ψ(Ω) =⎪⎪

⎨1

-0.5

0.5≤Ω≤2.5⎪⎩

0Ω>2.5

功率谱P (Ω) 与临界频带滤波器组曲线Ψ(Ω) 离散卷积即可得到临界带听觉谱Θ(Ωk ) ：

ΩΘ(Ωk ) ∑

=2.5=

P (Ω-Ωk ) Ψ(Ω),

Ω=-1.3

(3)

k =1,2, ,24

（3）等响度级预处理

心理声学研究成果表明，在声强一定的情况下，人耳对不同频率声音敏感程度不同，人耳对中高频较为敏感，对3KHz 到5KHz 声音最敏感，所以要对临界频带分析所得到的谱进行等响度级变换。经过变换后的响度级谱为：

Γ(Ωk ) =E (ωk ) Θ(Ωk ) (4) Ωk 和ωk 的关系可由式(1)得到，等响度级预处理

曲线如式（5）所示。

(ω2+56.8⨯106) ω4/(ω2+6.3⨯106) 2

E (ω) =(ω2+0.38⨯109)(ω6+9.58⨯1026) (5)

等响度级预处理以后的临界频带滤波器组频率响应如图2所示。

（4）等响度转换

经过以上处理后得到的谱为响度级谱。但响度级并不是响度，响度级与响度之间的关系是非线性的，为了模仿这一关系，也为了压缩谱的幅度，进行如式（6）所示的转换。

Φ(Ω) =Γ(Ω) (6)

经过这次处理后，可得到信号的24维听觉谱特

征。

4 自适应增强SVME 算法

由于在水下目标识别问题中，样本获取难度大，样本往往是有限的，因此一些基于传统统计学的学习方法在对水下目标识别中的识别性能不尽人意。与传统统计学相比，统计学习理论可以很好的解决有限样本学习问题。支持向量机(Support Vector Machine ，SVM) 就是在这一理论基础上发展的一种新的通用学习机，已经在人脸检测、手写数字识别、以及数据挖掘等领域成功应用。

然而，支持向量机在实际应用中仍然有以下不足之处。首先，支持向量机的基本原理是解决两类识别问题的，多类识别问题是通过支持向量机组合方法来解决，然而分类性能没有提高。而且SVM 在学习过程中因为时间和空间运算的高度复杂度，在运算过程中采取了近似计算。因此，有时候SVM 对实测数据的分类结果与理论期望值有很大的差距。

支持向量机集成(Support Vector Machine Ensemble ，SVME) 可以显著提高SVM 分类器的分类性能[10]

。针对小样本、M 类水下目标识别问题，本文设计了支持向量机分类器自适应增强集成算法，算法如下。

输入：训练样本集： X ={(x i , y i )

x d

i ∈, y i ∈{-1,1}, i =1, 2,

, n }

w ) =1

0(i n

, i =1,2, K n （训练样本的初始加权系数）

输出：f fin （分类器集成） For t =1, 2, , T

●

按照概率p t (i ) 从X 中抽取n 个样本构成新的训练样本集X t ，每个样本被抽中概率p t (i ) 的计算公式是：p t (i ) =w t (i )

w t (i ) ●

根据X t 确定个体SVM 分类器核函数参数 ●

用X t 训练SVM 得到分类器f t (X t ) ，计算f t (X t ) 的

加权分类错误率：ε=∑n

t i =1e (i ) ，当f t (X t (i )) ≠y i

时，e (i ) =w t (i ) ；当f t (X t (i )) =y i 时，e (i ) =0。

如果εt ≥0. 5或εt =1，结束循环； ● 计算下一轮循环的样本加权权值：

如果f t (X t (i )) =y i ，则w t +1(i ) =w t (i ) ⨯ξt ，式中ξt =εt /(1-εt ) ；

如果f t (X t (i )) ≠y i ，则w t +1(i ) =w t (i ) ; 并进行归一化w t +1(i ) =

w t +1(i )

∑n

i =1w t +1(i )

End

Return f 1,f 2, ,f t , ,f T （个体分类器集）

f fin =arg max

j =1, 2, K , M t :f(∑

log

x ) =j

ξ（输出分类器集成）t

算法在每次循环用不同的训练样本集训练一个个体分类器。训练个体分类器的训练样本集是用随机遍历抽样法，根据样本加权权值对原训练样本集进行重抽样构成，样本的加权权值越大，被抽中的可能性越大。由于在上一次循环中，赋予被错误分类的样本较大的加权权值，赋予被正确分类的样本较小的加权权值。因此，在每一次循环过程中，难分样本被抽取的可能性大。这使得在循环递进过程中，个体分类器的分类重点自适应地放在分类效果差的样本上，个体分类器分类性能逐渐增强。最后用加权多数投票法集成个体分类器。

SVM 分类器自适应增强集成算法训练个体分类器的训练样本集不同，个体分类器核函数参数不同，使得个体分类器之间具有很大的差异性，个体分类器的差异性增强了分类器集成算法的宽容能力。

5 实验及结果

5.1 实验数据集

本文所用的水下目标信号的采样频率为22050Hz ，每个样本的长度为4096点。水下目标分为A 、B 、C 、D 共4类，样本总数为1920，每类480个样本。由于受到实验数据采样频率（22050Hz ）的限制，本文只在20Hz ～9500Hz 频率范围内，即前22个临界频带内提取了信号的听觉谱特征。

5.2 实验及结果

在分类实验中，将1920个水下目标样本划分为9组训练样本集和测试样本集（测试集样本不包含训练样本）。将SVM 分类器集成算法和单个SVM 分类器分别对上述9组训练样本进行学习，然后统计两种算法对测试样本集合的分类正确率，结果如表1所示。为了避免样本选取的随机性对实验结果带来的误差，9组实验分别进行20次，最终结果为20次实验结果的平均值。

表1 分类实验结果

样本

训练样本测试样本平均正确分类率数目

数目 SVME SVM 组1 192 1728 0.8532 0.7852 组2 384 1536 0.8953 0.8055 组3 576 1344 0.9156 0.8196 组4 768 1152 0.9171 0.8242 组5 960 960 0.9253 0.8453 组6 1152 768 0.9567 0.8970 组7 1344 576 0.9576 0.8997 组8 1536 384 0.9635 0.9021 组9 1728

192

0.9679

0.9083

由表2可知，在9组实验情况下， SVM多类分类器集成算法比单个SVM 多类分类器的正确识别率最少高5.96%（数据组9）, 最多高9.6%（数据组3），平均高7.93%。SVM 自适应增强集成算法达到同样的正确分类率比单个SVM 多类分类器需要的学习样本个数要少。

实验结果说明，提取的听觉谱特征是有效特征，SVM 自适应增强集成算法比单个SVM 多类分类器具有

更高的平均正确识别率以及更好的推广性能。

6 结论

本文提出了根据人耳听觉模型提取水下目标信号的人耳听觉谱特征的方法，并设计了支持向量机分类器自适应增强集成算法，应用于水下目标分类识别。仿真实验证明，提出的听觉谱特征提取方法可有效应用于水下目标识别，且运算速度快。所设计的SVM 自适应增强集成算法比单个SVM 多类分类器具有更高的平均正确识别率以及更好的宽容性能。

参考文献

[1]蔡悦斌, 张明之, 史习智等. 舰船噪声波形结构特征提取及分类研究. 电子学报,1999，27(6): 129-130

[2]陶笃纯. 噪声和振动谱中线谱的提取和连续谱平滑. 声学学报,1984,9(6):337-344

[3]樊养余，孙进才. 基于高阶谱的舰船辐射噪声特征提取. 声学学报，1999，24(6): 611-616

[4] Ozhan D. Classification of Underwater Signal Using Wavelet Based Decomposition, Master Thesis Report, Naval Postgraduate School, Calififornia, 1992

[5]章新华, 张晓明. 舰船辐射噪声的混浊现象研究. 声学学报,1998,23(2):134-140

[6]汪洋，孙进才，陈克安等. 基于心理声学参数的水下目标识别特征提取方法. 数据采集与处理，2006,313-317

[7] 彭圆, 王晨, 王科俊等. 感知线性预测在水下目标分类中的应用研究. 声学学报，2006，31（2）：146-150

[8] E Zwicker, H Fastl. Psychoacoustics facts and models. New York: Springer-Verlag, 1999

[9] Hynek H. Perceptual linear predictive(PLP) analysis of speech. J. Acoust.Soc.Am.1990, 87(4):1738-1751 [10]杨宏晖, 孙进才. 基于支持向量机集成的水下目标自动识别系统. 测控技术,2006，25（12）:14-16

基于声信号人耳听觉谱特征和SVME

的水下目标识别

杨宏晖1 彭圆2 曾向阳1

1 引言

[5][6-7]

[6-7][5]

[4]

[2-3]

[1]

[2-3]

[4]

要特点是适于处理非线性的水声信号，而且原理简单，计算快速，具有较好的实时性。但这方面的研究工作还有待于进一步的深入。

2 人耳听觉感知模型

[8]

要的特性，一个是耳蜗对于声信号的分频特性；另一个是人耳听觉掩蔽效应。 2.1耳蜗的分频特性

3 听觉谱特征提取

图1 听觉谱特征提取原理图

这个人耳听觉感知模型也应用于语音信号处理

的感知线性预测算法 [9]

逼近信号短时自相关函数（线性预测分析），特征向

特点，更易满足识别任务对时间的要求。

具体实现过程如下：

（1）对水下目标信号进行短时傅立叶变换，计算其功率谱P (ω) ；

（2）临界频带分析

首先将P (ω) 进行频域到Bark 域的转

Ω(ω) =6In (ω/1200π (1)

其中，ω是以rad /s 为单位的角频率；Ω是以Bark 为单位的Bark 域频率。

然后将Bark 域的功率谱P (Ω) 与临界频带滤波器组曲线Ψ(Ω) 相卷，临界频带滤波器组曲线如式（2）所示。

⎧

⎪0Ω

102.5(Ω+0.5) -1.3≤Ω≤-0.5

Ψ(Ω) =⎪⎪

⎨1

-0.5

0.5≤Ω≤2.5⎪⎩

0Ω>2.5

功率谱P (Ω) 与临界频带滤波器组曲线Ψ(Ω) 离散卷积即可得到临界带听觉谱Θ(Ωk ) ：

ΩΘ(Ωk ) ∑

=2.5=

P (Ω-Ωk ) Ψ(Ω),

Ω=-1.3

(3)

k =1,2, ,24

（3）等响度级预处理

Γ(Ωk ) =E (ωk ) Θ(Ωk ) (4) Ωk 和ωk 的关系可由式(1)得到，等响度级预处理

曲线如式（5）所示。

(ω2+56.8⨯106) ω4/(ω2+6.3⨯106) 2

E (ω) =(ω2+0.38⨯109)(ω6+9.58⨯1026) (5)

等响度级预处理以后的临界频带滤波器组频率响应如图2所示。

（4）等响度转换

Φ(Ω) =Γ(Ω) (6)

经过这次处理后，可得到信号的24维听觉谱特

征。

4 自适应增强SVME 算法

支持向量机集成(Support Vector Machine Ensemble ，SVME) 可以显著提高SVM 分类器的分类性能[10]

。针对小样本、M 类水下目标识别问题，本文设计了支持向量机分类器自适应增强集成算法，算法如下。

输入：训练样本集： X ={(x i , y i )

x d

i ∈, y i ∈{-1,1}, i =1, 2,

, n }

w ) =1

0(i n

, i =1,2, K n （训练样本的初始加权系数）

输出：f fin （分类器集成） For t =1, 2, , T

●

按照概率p t (i ) 从X 中抽取n 个样本构成新的训练样本集X t ，每个样本被抽中概率p t (i ) 的计算公式是：p t (i ) =w t (i )

w t (i ) ●

根据X t 确定个体SVM 分类器核函数参数 ●

用X t 训练SVM 得到分类器f t (X t ) ，计算f t (X t ) 的

加权分类错误率：ε=∑n

t i =1e (i ) ，当f t (X t (i )) ≠y i

时，e (i ) =w t (i ) ；当f t (X t (i )) =y i 时，e (i ) =0。

如果εt ≥0. 5或εt =1，结束循环； ● 计算下一轮循环的样本加权权值：

如果f t (X t (i )) =y i ，则w t +1(i ) =w t (i ) ⨯ξt ，式中ξt =εt /(1-εt ) ；

如果f t (X t (i )) ≠y i ，则w t +1(i ) =w t (i ) ; 并进行归一化w t +1(i ) =

w t +1(i )

∑n

i =1w t +1(i )

End

Return f 1,f 2, ,f t , ,f T （个体分类器集）

f fin =arg max

j =1, 2, K , M t :f(∑

log

x ) =j

ξ（输出分类器集成）t

5 实验及结果

5.1 实验数据集

5.2 实验及结果

表1 分类实验结果

样本

训练样本测试样本平均正确分类率数目

192

0.9679

0.9083

实验结果说明，提取的听觉谱特征是有效特征，SVM 自适应增强集成算法比单个SVM 多类分类器具有

更高的平均正确识别率以及更好的推广性能。

6 结论

参考文献

[1]蔡悦斌, 张明之, 史习智等. 舰船噪声波形结构特征提取及分类研究. 电子学报,1999，27(6): 129-130

[2]陶笃纯. 噪声和振动谱中线谱的提取和连续谱平滑. 声学学报,1984,9(6):337-344

[3]樊养余，孙进才. 基于高阶谱的舰船辐射噪声特征提取. 声学学报，1999，24(6): 611-616

[4] Ozhan D. Classification of Underwater Signal Using Wavelet Based Decomposition, Master Thesis Report, Naval Postgraduate School, Calififornia, 1992

[5]章新华, 张晓明. 舰船辐射噪声的混浊现象研究. 声学学报,1998,23(2):134-140

[6]汪洋，孙进才，陈克安等. 基于心理声学参数的水下目标识别特征提取方法. 数据采集与处理，2006,313-317

[7] 彭圆, 王晨, 王科俊等. 感知线性预测在水下目标分类中的应用研究. 声学学报，2006，31（2）：146-150

[8] E Zwicker, H Fastl. Psychoacoustics facts and models. New York: Springer-Verlag, 1999

论文(设计)-基于声信号人耳听觉谱特征和水下目标识别

相关文章