基于DSP的声纹识别技术的研究

第30卷第4期 辽宁工业大学学报(自然科学版) V ol.30, No.4

2010 2010年 8 月 Journal of Liaoning University of Technology(Natural Science Edition) Aug.

基于DSP 的声纹识别技术的研究

李 波

(辽宁工业大学 电子与信息工程学院,辽宁 锦州 121001)

摘 要:论述了声纹识别技术的基本原理,采用DSP 及其他可编程芯片设计出声纹识别系统的硬件部分,阐述了其结构及工作原理。基于隐马尔可夫模型为算法,以线性预测倒谱系数和Mel 频域倒谱系数为特征矢量进行了系统仿真。结果表明,在结合使用两种倒谱系数及差分时,系统具有较高的识别率。

关键词:声纹识别;语音信号;DSP ;模型

中图分类号:TN912 文献标识码:A 文章编号:1674-3261(2010)04-0218-04

Study on Technology of Voiceprint Recognition

Based on DSP

LI Bo

(Electron & Information Engineering College, Liaoning University of Technology, Jinzhou 121001, China)

Key words: voiceprint recognition; speech signal; DSP; model

Abstract: The fundamental principle on technology of voiceprint recognition was discussed. By using DSP and other programmable chips, the voiceprint recognition system together with hardwares was designed, also the structure and working principle of this system were stated. Hidden Markov model was taken as the modeling algorithm and two feature vectors as far as the Mel cepstrum coefficient and the linear prediction one were concorned, the system simulation was done. The result expatiated when the combination of two cepstral coefficients and their difference were used, the system was of high speech recognition rate.

声纹识别是通过语音区分并认证说话人身份的技术,包括说话人辨认和说话人确认两个层面[1]。其中,前者用以辨别某段语音是待测子集中哪一个人发出的;后者则用来证实某段语音是否为指定的某个说话人所发出的。

声纹识别集声学、信号处理及人工智能为一体,是生物识别的重要组成,其应用前景十分广阔。本文从研究和应用的角度出发,以TMS320VC5402芯片为硬件平台,采用线性预测倒谱系数和Mel 频域倒谱系数分别建立参考模板,使用隐马尔可夫模型进行声纹识别仿真。通过实验,分析了这两种特征参数对声纹识别率的影响。

收稿日期:2010-03-31

基金项目:辽宁省教育厅科研项目(2009A359)

作者简介:李波(1977-),男,辽宁锦州人,讲师,硕士。

1 声纹识别技术的原理

声纹识别技术主要涵盖了语音信号的预处理、特征值提取和识别,其组成如图1所示。 1.1 语音信号的预处理

第一阶段为语音信号的预处理,包括预加重、分帧和加窗。语音信号只有在预处理后才能进行特征值的提取,因此,预处理的效果直接影响着整个识别过程的计算复杂度。

在实际的语音通信系统中,经常存在许多种类的噪声干扰。为准确提取语音信号,应先用低通滤波器滤掉冲击噪声,再用高通滤波器抑制带通噪

第4期 李波:基于DSP 的声纹识别技术的研究 219

图1 声纹识别的组成框图

声,最后用小波变换算法去除白噪声。去噪后的语音信号通过预加重环节来提升800 Hz以上的高频部分,并补偿6 dB/倍频程衰落,使信号在整个频带内具有同样的信噪比。

由于采集到的语音信号不完全连续,一般需确定语音帧的起止位置。用于语音信号端点检测的参数主要有短时平均能量和短时过零率。

(1)语音信号x (n )的短时平均能量为

E n =

) ω2(n −m ) (1) m =∑

n

x 2(m n −N +1

式中:ω2

(n -m )为窗函数(如矩形窗、汉明窗和汉宁窗),能防止语音信号在分帧后出现的频谱泄露[2]。(2)短时过零率反映了信号时域波形在一段时间内的过零次数。

1N 2∑−1

Z n =sgn[x (n )]−sgn[x (n −1)] (2)

n =0

由于汉字的声母具有较高的过零率、韵母有较高的短时平均能量,可将两者的乘积定义为能频值,与单一的平均能量或短时过零率相比,该参数更好地反映了汉字的语音特点。 1.2 语音信号的特征值提取

语音信号特征参数的选取,对声纹识别的性能至关重要。目前可提取的特征参数有自相关函数、线性预测系数和倒谱系数等。这些参数中,基于倒谱系数的识别算法较为理想。 1.2.1 线性预测倒谱系数(LPCC )

对于一个线性预测系数(LPC )系统,若采样点输出s (n )表示为

p

s (n ) =∑a k s (n −k ) +GU (z ) (3)

k =1

式中:a k 为常数;G 为增益系数;U (z )为归一化冲击响应。

LPC 系统的均方差误差可表示为

p

E 2n =∑e n (m ) =∑[s n (m ) −∑a k s n (m −k )]2(4)

m

m

k =1

为取式(4)的最小值,令

∂E n

∂a =0 k 根据相关函数的定义

φn (i , k ) =∑s n (m −i ) s n (m −k )

m

p

φn (i , 0) =∑a k φn (i , k ) , k =1, 2, , p (5)

k =1

式(5)是由p 个未知数、p 个方程构成的线性方程组。求解该方程组,即可得到线性预测系数a k .

LPC 描述了语音信号的声道谐振特性,但鉴于声纹识别的运算精度,很少直接使用,而是将a k 通过递推公式(6),迭代求出LPCC [3].

c m =lg G 2,m =0

m −1

c k

m =a m +∑k a m −k 1≤m ≤p (6) k =1

m ,

m −1

c k

m =∑k =1

m k a m −k ,

m >p 式中:c m 为LPCC ;c 0为直流分量;m 为LPCC 的阶数;a m 为LPC ;p 为LPC 的阶数。

LPCC 具有很好的内插性能,反映了说话人声道的静态和动态特征,适用于信号的聚类分析。 1.2.2 Mel 频域倒谱系数

在倒谱系数中,Mel 频域倒谱系数(MFCC )也是一个重要的特征参数

c p πm m =c m (1+sin , 1≤m ≤p (7) 式中:c

2p

m 为MFCC ;c m 为LPCC.

MFCC 符合人耳对声音频率的非线性感知,对噪声也有一定的适应性[4]。

在用MFCC 识别语音听觉频率特性时,可能会将声音模拟者误判决为合法者。于是可用LPCC 确定说话人的声道特性是否为合法者所有。这样,由于不同说话人的声道特性不同,即使在说同样语音时,LPCC 也存在一定的差异[5]。因此,结合使用MFCC 和LPCC 两个参数能提高识别率,达到较好的效果。

1.3 语音信号的训练与识别

在语音信号的训练阶段,首先要对模型参数初始化,说话人说出若干训练语句。然后,在训练数据中任取一组与其高斯分量相对应,求出均值和方差,并建立参考模板。在识别阶段,待测语音信号

220 辽宁工业大学学报(自然科学版) 第30卷

的特征矢量与系统训练时产生的各参考模板逐一进行相似度计算。在说话人辨认时,选取与测试音匹配距离最小的模板所对应的说话人为识别结果;在说话人确认时,根据测试音与所对应的说话人模板匹配距离是否小于特定的阈值来做出判决。

用于声纹识别的判决策略有矢量量化(VQ )、时间弯折(DTW )、隐马尔可夫模型(HMM )和混合高斯分布模型(GMM )。其中,HMM 是广泛适用的语言模型,不需要时间规整。在HMM 中,若π为初始状态概率矢量,A 为状态转移概率矩阵,B 为输出概率矩阵,则第i 人第j 个模型表示为λij =(π, A , B )。于是,对给定的观测序列O ,不断修正模型λij 中的参数矢量π、A 和B ,使概率P (O │λij )在训练中达到最大值,构建出最佳训练模型[6]。在测试阶段,对每个λij 分别计算P (O │λij ),arg i (max P (O │λij )) 则为识别结果。

2 DSP系统的构成与实现

2.1 硬件系统的设计

DSP 硬件系统的构成如图2所示。

图2 DSP 硬件系统的构成

为实现声纹识别技术,设计中采用了TMS320VC5402为硬件系统的主控器件。该芯片是C5000系列定点DSP 中具有较高性价比的一款,采用了哈佛结构,含有六级深度的流水线,主频高达100 MHz,具有丰富的片内接口资源。本设计在TMS320VC5402的X1和X2引脚间接入一个晶体,用于启动内部振荡器,通过配置CLKMD ,使DSP 完成一次声纹识别的周期控制在3 s以内。为有效提高语音参数的存取速度,外扩数据存储器选取了

64 k×16 bit的ICSI64LV16 SRAM. 此外,电源模块TPS73HD318可提供1.8 V的内核电压和3.3 V 的外设电压。IMP809能实时监视DSP 的电源状态,有效确保DSP 复位。

考虑到语音信号的采样精度,选用高性能的TLC320AD50C 完成语音信号的采集与回放。该芯片集成了A/D和D/A模块,只需一个缓冲通道即可与TMS320VC5402连接,节省了DSP 的开销。在图2所示的硬件系统中,通用异步收发器MAX3111则起到了通信桥梁的作用,无需电平转换即可实现DSP 与PC 机数据传输。 2.2 软件系统的设计

DSP 软件系统采用了模块化的程序设计方法,利用优化的C 语言编程。设计主要包括语音信号采集、预处理、特征值提取、训练和识别等子程序。首先,对语音信号预处理,提取LPCC 及∆LPCC 和MFCC 及∆MFCC 。根据每帧特征矢量的均值,求出状态转移概率矩阵A 和输出概率矩阵B ,构建出HMM 模型λij =(π, A , B )。然后,采用LBG 算法将再次采集到待识别语音特征矢量转换为观测序列O ,以训练时得到的HMM 参考模板为基础逐一匹配,对每个λij 计算输出概率P (O │λij ),则Viterbi 算法评分最高的概率所对应的模板即为识别结果。 2.3 系统仿真及结果分析

根据DSP 硬件系统的设备选型,结合声纹识别技术的原理及算法,在实验室环境下采集了50名测试人员(30男、20女)每人3次的语音信号用于训练。其采样频率为11.025 kHz、采样时间为2.5 s、量化值为16 bit. 语音信号字长为2~4字,预加重为

(1-0.9375z -1

)。系统按帧长128 dot,加汉宁窗来提取16阶LPCC 及ΔLPCC 和16阶MFCC 及ΔMFCC. 然后对每人重新采样3遍,利用HMM 进行识别。图3给出了测试语音“声纹识别”的原始信号、预处理后信号及各帧的能频值。

为了比较不同语音特征参数的识别效果,进行了3组声纹识别的仿真:第一组,采用LPCC 及LPCC+ΔLPCC 为特征参数;第二组,采用MFCC 及MFCC+ΔMFCC 为特征参数;第三组,采用LPCC+MFCC、LPCC+ΔLPCC+MFCC+ΔMFCC 混合参数。实验结果如表1和表2所示。

表1 LPCC 和MFCC 的误识率比较

特征参数 LPCC LPCC+ΔLPCC 误识率 8.00% 6.67% 特征参数 MFCC

MFCC+ΔMFCC

误识率

4.69% 2.00%

第4期 李波:基于DSP 的声纹识别技术的研究 221

图3 语音信号预处理波形

表2 LPCC 和MFCC 组合的误识率比较

特征参数 LPCC+ MFCC

误识率 3.33% 特征参数 LPCC+ΔLPCC +MFCC+ΔMFCC

误识率

1.33%

在表1中,当采用的四种特征参数时,利用MFCC+ΔMFCC 作为特征参数的误识率较低。在表2中,当组合使用LPCC+ΔLPCC+MFCC+ΔMFCC 时,共有64维特征参数,此时系统的误识率相对于前两组实验结果达到最低,仅为1.33%.

实验表明,基于MFCC 为参数的语音识别性能优于LPCC 参数,它们的差分系数能更好地反映语音特征,结合使用LPCC 与MFCC 较单一的参数识别时的误识率要低很多。

3 结 论

本文基于声纹识别技术的原理及语音信号的特征参数LPCC 和MFCC ,设计出以DSP 为核心的声纹识别系统。通过TLC320AD50C 将语音信号采集到TMS320VC5402中,利用HMM 模型对语音信号进行处理并传送至PC 机,完成声纹识别仿真。实验表明,本系统能稳定的提取LPCC 和MFCC 参数并用以声纹识别,组合使用LPCC 、MFCC 及差分能达到很好的识别效果。

参考文献:

[1] 刘兴业. 任意文本的说话人识别系统研究[D]. 大连: 大

连理工大学, 2000.

[2] 郭秋敏, 刘晓文, 徐博. 基于Mel 频率倒谱系数的DSP

语音识别系统[J]. 通信技术, 2007, 12(40): 387-390. [3] 刘晋胜. 基于TMS320VC5402的电子语音锁的系统设

计[J]. 电声技术, 2006, 7: 28-31.

[4] 张鹏. 基于DSP 的嵌入式声纹识别汽车锁的设计与实现

[D]. 长春: 吉林大学, 2007.

[5] 刘永红. 说话人识别系统的研究[D]. 成都: 西南交通大

学, 2000.

[6] 林晓钢, 汪文林, 何渝. 一种高识别率的语音密码锁[J].

重庆大学学报, 2008, 31(3): 307-310.

责任编校:孙 林

第30卷第4期 辽宁工业大学学报(自然科学版) V ol.30, No.4

2010 2010年 8 月 Journal of Liaoning University of Technology(Natural Science Edition) Aug.

基于DSP 的声纹识别技术的研究

李 波

(辽宁工业大学 电子与信息工程学院,辽宁 锦州 121001)

摘 要:论述了声纹识别技术的基本原理,采用DSP 及其他可编程芯片设计出声纹识别系统的硬件部分,阐述了其结构及工作原理。基于隐马尔可夫模型为算法,以线性预测倒谱系数和Mel 频域倒谱系数为特征矢量进行了系统仿真。结果表明,在结合使用两种倒谱系数及差分时,系统具有较高的识别率。

关键词:声纹识别;语音信号;DSP ;模型

中图分类号:TN912 文献标识码:A 文章编号:1674-3261(2010)04-0218-04

Study on Technology of Voiceprint Recognition

Based on DSP

LI Bo

(Electron & Information Engineering College, Liaoning University of Technology, Jinzhou 121001, China)

Key words: voiceprint recognition; speech signal; DSP; model

Abstract: The fundamental principle on technology of voiceprint recognition was discussed. By using DSP and other programmable chips, the voiceprint recognition system together with hardwares was designed, also the structure and working principle of this system were stated. Hidden Markov model was taken as the modeling algorithm and two feature vectors as far as the Mel cepstrum coefficient and the linear prediction one were concorned, the system simulation was done. The result expatiated when the combination of two cepstral coefficients and their difference were used, the system was of high speech recognition rate.

声纹识别是通过语音区分并认证说话人身份的技术,包括说话人辨认和说话人确认两个层面[1]。其中,前者用以辨别某段语音是待测子集中哪一个人发出的;后者则用来证实某段语音是否为指定的某个说话人所发出的。

声纹识别集声学、信号处理及人工智能为一体,是生物识别的重要组成,其应用前景十分广阔。本文从研究和应用的角度出发,以TMS320VC5402芯片为硬件平台,采用线性预测倒谱系数和Mel 频域倒谱系数分别建立参考模板,使用隐马尔可夫模型进行声纹识别仿真。通过实验,分析了这两种特征参数对声纹识别率的影响。

收稿日期:2010-03-31

基金项目:辽宁省教育厅科研项目(2009A359)

作者简介:李波(1977-),男,辽宁锦州人,讲师,硕士。

1 声纹识别技术的原理

声纹识别技术主要涵盖了语音信号的预处理、特征值提取和识别,其组成如图1所示。 1.1 语音信号的预处理

第一阶段为语音信号的预处理,包括预加重、分帧和加窗。语音信号只有在预处理后才能进行特征值的提取,因此,预处理的效果直接影响着整个识别过程的计算复杂度。

在实际的语音通信系统中,经常存在许多种类的噪声干扰。为准确提取语音信号,应先用低通滤波器滤掉冲击噪声,再用高通滤波器抑制带通噪

第4期 李波:基于DSP 的声纹识别技术的研究 219

图1 声纹识别的组成框图

声,最后用小波变换算法去除白噪声。去噪后的语音信号通过预加重环节来提升800 Hz以上的高频部分,并补偿6 dB/倍频程衰落,使信号在整个频带内具有同样的信噪比。

由于采集到的语音信号不完全连续,一般需确定语音帧的起止位置。用于语音信号端点检测的参数主要有短时平均能量和短时过零率。

(1)语音信号x (n )的短时平均能量为

E n =

) ω2(n −m ) (1) m =∑

n

x 2(m n −N +1

式中:ω2

(n -m )为窗函数(如矩形窗、汉明窗和汉宁窗),能防止语音信号在分帧后出现的频谱泄露[2]。(2)短时过零率反映了信号时域波形在一段时间内的过零次数。

1N 2∑−1

Z n =sgn[x (n )]−sgn[x (n −1)] (2)

n =0

由于汉字的声母具有较高的过零率、韵母有较高的短时平均能量,可将两者的乘积定义为能频值,与单一的平均能量或短时过零率相比,该参数更好地反映了汉字的语音特点。 1.2 语音信号的特征值提取

语音信号特征参数的选取,对声纹识别的性能至关重要。目前可提取的特征参数有自相关函数、线性预测系数和倒谱系数等。这些参数中,基于倒谱系数的识别算法较为理想。 1.2.1 线性预测倒谱系数(LPCC )

对于一个线性预测系数(LPC )系统,若采样点输出s (n )表示为

p

s (n ) =∑a k s (n −k ) +GU (z ) (3)

k =1

式中:a k 为常数;G 为增益系数;U (z )为归一化冲击响应。

LPC 系统的均方差误差可表示为

p

E 2n =∑e n (m ) =∑[s n (m ) −∑a k s n (m −k )]2(4)

m

m

k =1

为取式(4)的最小值,令

∂E n

∂a =0 k 根据相关函数的定义

φn (i , k ) =∑s n (m −i ) s n (m −k )

m

p

φn (i , 0) =∑a k φn (i , k ) , k =1, 2, , p (5)

k =1

式(5)是由p 个未知数、p 个方程构成的线性方程组。求解该方程组,即可得到线性预测系数a k .

LPC 描述了语音信号的声道谐振特性,但鉴于声纹识别的运算精度,很少直接使用,而是将a k 通过递推公式(6),迭代求出LPCC [3].

c m =lg G 2,m =0

m −1

c k

m =a m +∑k a m −k 1≤m ≤p (6) k =1

m ,

m −1

c k

m =∑k =1

m k a m −k ,

m >p 式中:c m 为LPCC ;c 0为直流分量;m 为LPCC 的阶数;a m 为LPC ;p 为LPC 的阶数。

LPCC 具有很好的内插性能,反映了说话人声道的静态和动态特征,适用于信号的聚类分析。 1.2.2 Mel 频域倒谱系数

在倒谱系数中,Mel 频域倒谱系数(MFCC )也是一个重要的特征参数

c p πm m =c m (1+sin , 1≤m ≤p (7) 式中:c

2p

m 为MFCC ;c m 为LPCC.

MFCC 符合人耳对声音频率的非线性感知,对噪声也有一定的适应性[4]。

在用MFCC 识别语音听觉频率特性时,可能会将声音模拟者误判决为合法者。于是可用LPCC 确定说话人的声道特性是否为合法者所有。这样,由于不同说话人的声道特性不同,即使在说同样语音时,LPCC 也存在一定的差异[5]。因此,结合使用MFCC 和LPCC 两个参数能提高识别率,达到较好的效果。

1.3 语音信号的训练与识别

在语音信号的训练阶段,首先要对模型参数初始化,说话人说出若干训练语句。然后,在训练数据中任取一组与其高斯分量相对应,求出均值和方差,并建立参考模板。在识别阶段,待测语音信号

220 辽宁工业大学学报(自然科学版) 第30卷

的特征矢量与系统训练时产生的各参考模板逐一进行相似度计算。在说话人辨认时,选取与测试音匹配距离最小的模板所对应的说话人为识别结果;在说话人确认时,根据测试音与所对应的说话人模板匹配距离是否小于特定的阈值来做出判决。

用于声纹识别的判决策略有矢量量化(VQ )、时间弯折(DTW )、隐马尔可夫模型(HMM )和混合高斯分布模型(GMM )。其中,HMM 是广泛适用的语言模型,不需要时间规整。在HMM 中,若π为初始状态概率矢量,A 为状态转移概率矩阵,B 为输出概率矩阵,则第i 人第j 个模型表示为λij =(π, A , B )。于是,对给定的观测序列O ,不断修正模型λij 中的参数矢量π、A 和B ,使概率P (O │λij )在训练中达到最大值,构建出最佳训练模型[6]。在测试阶段,对每个λij 分别计算P (O │λij ),arg i (max P (O │λij )) 则为识别结果。

2 DSP系统的构成与实现

2.1 硬件系统的设计

DSP 硬件系统的构成如图2所示。

图2 DSP 硬件系统的构成

为实现声纹识别技术,设计中采用了TMS320VC5402为硬件系统的主控器件。该芯片是C5000系列定点DSP 中具有较高性价比的一款,采用了哈佛结构,含有六级深度的流水线,主频高达100 MHz,具有丰富的片内接口资源。本设计在TMS320VC5402的X1和X2引脚间接入一个晶体,用于启动内部振荡器,通过配置CLKMD ,使DSP 完成一次声纹识别的周期控制在3 s以内。为有效提高语音参数的存取速度,外扩数据存储器选取了

64 k×16 bit的ICSI64LV16 SRAM. 此外,电源模块TPS73HD318可提供1.8 V的内核电压和3.3 V 的外设电压。IMP809能实时监视DSP 的电源状态,有效确保DSP 复位。

考虑到语音信号的采样精度,选用高性能的TLC320AD50C 完成语音信号的采集与回放。该芯片集成了A/D和D/A模块,只需一个缓冲通道即可与TMS320VC5402连接,节省了DSP 的开销。在图2所示的硬件系统中,通用异步收发器MAX3111则起到了通信桥梁的作用,无需电平转换即可实现DSP 与PC 机数据传输。 2.2 软件系统的设计

DSP 软件系统采用了模块化的程序设计方法,利用优化的C 语言编程。设计主要包括语音信号采集、预处理、特征值提取、训练和识别等子程序。首先,对语音信号预处理,提取LPCC 及∆LPCC 和MFCC 及∆MFCC 。根据每帧特征矢量的均值,求出状态转移概率矩阵A 和输出概率矩阵B ,构建出HMM 模型λij =(π, A , B )。然后,采用LBG 算法将再次采集到待识别语音特征矢量转换为观测序列O ,以训练时得到的HMM 参考模板为基础逐一匹配,对每个λij 计算输出概率P (O │λij ),则Viterbi 算法评分最高的概率所对应的模板即为识别结果。 2.3 系统仿真及结果分析

根据DSP 硬件系统的设备选型,结合声纹识别技术的原理及算法,在实验室环境下采集了50名测试人员(30男、20女)每人3次的语音信号用于训练。其采样频率为11.025 kHz、采样时间为2.5 s、量化值为16 bit. 语音信号字长为2~4字,预加重为

(1-0.9375z -1

)。系统按帧长128 dot,加汉宁窗来提取16阶LPCC 及ΔLPCC 和16阶MFCC 及ΔMFCC. 然后对每人重新采样3遍,利用HMM 进行识别。图3给出了测试语音“声纹识别”的原始信号、预处理后信号及各帧的能频值。

为了比较不同语音特征参数的识别效果,进行了3组声纹识别的仿真:第一组,采用LPCC 及LPCC+ΔLPCC 为特征参数;第二组,采用MFCC 及MFCC+ΔMFCC 为特征参数;第三组,采用LPCC+MFCC、LPCC+ΔLPCC+MFCC+ΔMFCC 混合参数。实验结果如表1和表2所示。

表1 LPCC 和MFCC 的误识率比较

特征参数 LPCC LPCC+ΔLPCC 误识率 8.00% 6.67% 特征参数 MFCC

MFCC+ΔMFCC

误识率

4.69% 2.00%

第4期 李波:基于DSP 的声纹识别技术的研究 221

图3 语音信号预处理波形

表2 LPCC 和MFCC 组合的误识率比较

特征参数 LPCC+ MFCC

误识率 3.33% 特征参数 LPCC+ΔLPCC +MFCC+ΔMFCC

误识率

1.33%

在表1中,当采用的四种特征参数时,利用MFCC+ΔMFCC 作为特征参数的误识率较低。在表2中,当组合使用LPCC+ΔLPCC+MFCC+ΔMFCC 时,共有64维特征参数,此时系统的误识率相对于前两组实验结果达到最低,仅为1.33%.

实验表明,基于MFCC 为参数的语音识别性能优于LPCC 参数,它们的差分系数能更好地反映语音特征,结合使用LPCC 与MFCC 较单一的参数识别时的误识率要低很多。

3 结 论

本文基于声纹识别技术的原理及语音信号的特征参数LPCC 和MFCC ,设计出以DSP 为核心的声纹识别系统。通过TLC320AD50C 将语音信号采集到TMS320VC5402中,利用HMM 模型对语音信号进行处理并传送至PC 机,完成声纹识别仿真。实验表明,本系统能稳定的提取LPCC 和MFCC 参数并用以声纹识别,组合使用LPCC 、MFCC 及差分能达到很好的识别效果。

参考文献:

[1] 刘兴业. 任意文本的说话人识别系统研究[D]. 大连: 大

连理工大学, 2000.

[2] 郭秋敏, 刘晓文, 徐博. 基于Mel 频率倒谱系数的DSP

语音识别系统[J]. 通信技术, 2007, 12(40): 387-390. [3] 刘晋胜. 基于TMS320VC5402的电子语音锁的系统设

计[J]. 电声技术, 2006, 7: 28-31.

[4] 张鹏. 基于DSP 的嵌入式声纹识别汽车锁的设计与实现

[D]. 长春: 吉林大学, 2007.

[5] 刘永红. 说话人识别系统的研究[D]. 成都: 西南交通大

学, 2000.

[6] 林晓钢, 汪文林, 何渝. 一种高识别率的语音密码锁[J].

重庆大学学报, 2008, 31(3): 307-310.

责任编校:孙 林


相关文章

  • 基于DSP的铁路信号识别技术
  • 文章编号:1005-8451(2010)04-0046-03 基于DSP的铁路信号识别技术 黄雪程1,王 2.北京邮电大学 摘性要求. 关键词:数字信号处理:信号识别:铁路中图分类号:U28 文献标识码:A 焱1,刘春2 100044:10 ...查看


  • 疲劳驾驶状态检测系统的设计
  • 疲劳驾驶状态检测系统的设计 摘 要: 司机疲劳驾驶容易引起严重的交通事故,疲劳状态检测系统的研究成为计算机应用研究的重要领域.为了满足疲劳状态检测系统实时性要求,选择实时性较好的Adaboost 算法来识别人眼,采用单位时间内眼睛闭合时间所 ...查看


  • 基于D S P/B I O S的门禁系统设计与实现 - 中国一卡通网
  • 基于D S P/B I O S的门禁系统设计与实现 来源:中国一卡通网  作者:曹磊,范彩霞  发布时间:2010-08-09 17:48:48  字体:[大中小] 关键字:D S P  B I O S  门禁系统  生物特征 摘   要: ...查看


  • 江苏省大学生创新训练计划项目研究总结报告
  • 附件3 江苏省大学生创新训练计划项目研究总结报告 一.项目研究背景及意义 20世纪集成电路的发展为数字音频技术提供了良好的发展空间,使数字音频技术得到了迅猛的发展.随着音频处理技术的发展,它们对音质.体积.功耗和处理速度的要求越来越苛刻,作 ...查看


  • 现代信号处理_2014-01
  • 现代信号处理 李飞 [email protected] 2014年2月-5月 绪论李飞2014.2.18 课程简介 现代信号处理是"信息与通信工程"学科."电子与通信工程"专业类一门重要的专业基础 ...查看


  • 智能仓库管理系统
  • 电子技术 128 智能仓库管理系统 孟庆仙 (云南机电职业技术学院, 昆明 650203) 摘 要:该系统主要是完成仓库监控系统中的子模块--变频拖动系统,实现卷帘门稳定匀速拖动.让仓库在安全的条件下能够有效的管理进出仓库的人与物,并且能够 ...查看


  • 通信工程研究生(A)
  • 通信工程考研方向及具体介绍默认分类 2010-03-19 21:23:10 阅读41 评论0 字号:大中小 一.★"信息与通信工程"下面的 ▲通信与信息系统:▲信号与信息处理 二.★"电子科学与技术" ...查看


  • 密码锁文献
  • 文献综述 1 前言 在现代社会,电子密码锁已不是一个陌生的名词.本文中将要介绍的电子密码锁是一种通过密码输入 来控制电路或是芯片工作,从而控制机械开关的闭合,完成开锁.闭锁任务的电子锁装置.电子密码由于其 保密性高,使用灵活性好,安全系数高 ...查看


  • SAR雷达信号处理技术研究
  • 2007年第5期商丘职业技术学院学报Vol . 6, No . 5 第6卷(总第32期) JOURNAL OF SHANG Q I U VOC ATI O NAL AND TECHN I CAL C OLLEGE Oct . , 2007文 ...查看


热门内容