基于麦克风阵列的语音增强方法

基于麦克风阵列的语音增强方法

概述:在日常生活和工作中,语音通信是人与人之间互相传递信息沟通不可缺少的方式。在语音通信中,语音信号不可避免地会受到来自周围环境和传输媒介的外部噪声、通信设备的内部噪声及其他讲话者的干扰。这些干扰共同作用,最终使听者获得的是被噪声污染过的带噪声语音,严重影响了双方之间的交流。应用阵列信号处理技术的麦克风阵列能够充分利用语音信号的空时信息,具有灵活的波束控制、较高的空间分辨率、高的信号增益与较强的抗干扰能力等特点,逐渐成为强噪声环境中语音增强的研究热点。本文将介绍各种麦克风阵列语音增强方法,并总结各个方法的优劣。最终得出更好的、能够去噪的基于麦克风阵列的语音增强方法。

1麦克风阵列

麦克风阵列是将两个麦克风的信号耦合为一个信号。在频率响应中也可以根据时域中波束形成与空间滤波器相仿的应用,分析出接收到语音信号音源的方向以及其变化。采用该技术,能利用两个麦克风接收到声波的相位之间的差异对声波进行过滤,能最大限度将环境背景声音滤掉,只剩下需要的声波。对于在嘈杂的环境下使用采用了这种配置的设备,在嘈杂的环境下能使听者听起来很清晰,没杂音。

2基于麦克风阵列的语音增强方法

2.1基于自适应波束形成器的麦克风阵列语音增强

自适应波束形成是现在广泛使用的一类麦克风阵列语音增强方法。最早出现的自适应波束形成算法,其基本思想是在某方向有用信号的增益一定的前提下,使阵列输出信号的功率最小。在线性约束最小方差自适应波束形成器的基础上,1982 年Griffiths 和Jim 提出了广义旁瓣消除器成为了许多算法的基本框架。 广义旁瓣消除器(GSC )的工作原理是带噪声的语音信号同时通过自适应通道和非自适应通道,自适应通道中的阻塞矩阵将有用信号滤除后产生仅包含多通道噪声参考信号,自适应滤波器根据这个参考信号得到噪声估计,最后由这个被估计的噪声抵消非自适应通道中的噪声分量,从而得到有用的纯净语音信号。 麦克风阵列的自适应算法通过迭代运算获取波束形成的最优权矢量时,噪声模型的估计是一个非常关键的因素。它的好坏直接影响着系统波束形成的性能。系统地分析了最小均方( LMS) 自适应语音增强算法,并针对阻塞矩阵在估计噪声时存在的缺陷,在该算法的基础上提出了一种利用最小值控制递归平均( MCRA) 来估计噪声的方法。将此方法应用于波束形成,MCRA 估计出的噪声使LMS 自适应语音增强的效果更好和抗噪性更强。

2.2基于固定波束形成的麦克风阵列语音增强

固定波束形成技术是最简单最成熟的一种波束形成技术。1985 年美国学者Flanagan 提出采用延时-相加波束形成方法进行麦克风阵列语音增强,该方法通过对各路麦克风接收到的信号添加合适的延时补偿,使得各路输出信号在某一方向上保持同步,并在该方向的入射信号获得最大增益。此方法易于实现,但要想获取较高的噪声抑制能力则需要增加麦克风数目,然而对非相干噪声没有抑制能力,环境适应性差,因此实际中很少单独使用。后来出现的微分麦克风阵列、超方向麦克风阵列和固定频率波束形成技术也属于固定波束形成。

采用可调波束形成器的GSC麦克风阵列语言增强算法,其实质在GSC结构中的固定波束形成器前端引入各通道可调时延补偿,构造可调波束形成器进行声源方位估计,从而在目标声源方位获取阶段即可利用阵列的空间增益来提高方位估计性能。延迟求和波束形成器主要目的是增强主瓣方向目标信号,而抑制其他方向的噪声信号。

可调波束形成器结构如图2所示,它利用阵列形成不同波束角度时GSC的输出能量作为代价函数来估计波束对准声源时各通道语音的时延补偿值,以实现目标语音信号方向的定位.其基本思想是:假定目标信号入射角为α,利用不同的α 求出对应的通道补偿时延值τ 对各通道接收的语音信号进行时延补偿,然后通过传统GSC算法得到各自对应的增强语音,并比较不同α对应的输出信号能量,最大能量对应的α 即为实际目标信号方向,相应的τ即为目标语音到达相邻麦克风的时延补偿值。表1给出了2种比较算法的语音增强结果.从表中可以看出,在3种不同噪声、不同SNR下,该算法的消噪性能均优于传统的GSC算法。

2.3基于后置滤波的麦克风阵列语音增强

1988 年Zelinski 将维纳滤波器应用在麦克风阵列延时—相加波束形成的输出端,进一步提高了语音信号的降噪效果,提出了基于后置滤波的麦克风阵列语音增强方法(图2)。基于后置滤波的方法在对非相干噪声抑制方面,不仅具有良好的效果,还能够在一定程度上适应时变的声学环境。它的基本原理是:假设各麦克风接收到的目标信号相同,接收到的噪声信号独立同分布,信号和噪声不相关,根据噪声特性,依据某一准则实时更新滤波器权系数,对所接收到数据进行滤波,从而达到语音增强的目的。

图2 结合后置滤波的固定波束形成器

后置滤波方法存在以下不足:首先,算法的性能受到时延误差的影响,使增强后的语音信号有一定失真;其次,该方法对方向性的强干扰抑制效果不佳。后置滤波方法极少单独使用,常与其他方法联合使用。

2.4基于子空间的麦克风阵列语音增强

子空间方法的基本思想是计算出信号的自相关矩阵或协方差矩阵,然后对其进行奇异值分解,将带噪声语音信号划分为有用信号子空间和噪声子空间,利用有用信号子空间对信号进行重构,从而得到增强后的信号。由Asano 等提出的基于相干子空间的麦克风阵列语音增强方法是一种典型的子空间方法。该方法首先将语音信号划分到不同频带,然后在每个频带再利用空间信息,进行子空间处理。

2.5基于近场波束形成的麦克风阵列语音增强

当声源位于麦克风阵列近场(即阵列的入射波是球面波)情况下,声波的波前弯曲率不能被忽略,如果仍然把入射声波作为平面波考虑,采用常规的波束形成方法来拾取语音信号,那么麦克风阵列系统输出效果会很不理想。解决这个问题最直接的方法就是根据声源位置和近场声学的特性,对入射声波进行近场补偿,但是这种方法需要已知声源位置,这在实际应用中难以满足。由于近场声学的复杂性,目前有关近场波束形成麦克风阵列语音增强方法的研究相对较少。

2.6基于相干性滤波器和广义旁瓣抵消器组合的麦克风小阵列语音增强算法

在语音段和非语音段采用不同的平滑系数分别进行噪声谱估计,可以加快跟踪噪声谱的变化,并能保证较小的目标语音畸变;而对于采用的NLMS 算法,在语音段和非语音段采用不同的步长对滤波器权系数进行更新,可以最大限度避免在长语音段对噪声信号跟踪失效的问题。

本语音增强算法结构如图 1 所示。从图中可以看出,算法主要分为两部分:相干性滤波器和广义旁瓣抵消器,主要思想是利用基于VAD 的迭代相干性滤波器作为广义旁瓣抵消器的前置预处理滤波器,用以抑制包括混响和非相关性噪声信号在内的干扰,然后使用基于变步长NLMS 的广义旁瓣抵消器抑制残留的噪声信号。

3方法特点与对比 自适应波束:自适应如果噪声源的数目比麦克风数目少,自适应波束法能得到很好的性能。但是随着干扰数目的增加和混响的增强,自适应滤波器的降噪性能会逐渐降低。 固定波束:该类麦克风阵列语音增强方法实现简单且有韧性, 但需要较多麦克风才能得到较好的噪声抑制能力。因此, 实际中很少单独使用。

后置滤波:与自适应波束形成麦克风阵列语音增强方法相比, 后置滤波方法在对非相干噪声抑制方面, 具有明显的优势。但算法的性能受到时延误差的影响,使增强后的语音信号有一定失真。该方法对方向性的强干扰抑制效果不佳。后置滤波方法极少单独使用,常与其他方法联合使用。 子空间:基于子空间的麦克风阵列语音增强方法虽然降噪性受噪声场是否相关影响较小,在相干和非相干噪声场中均有一定的消噪效果,但是由于计算量较大,实现实时处理具有一定困难。 近场波束:这种方法需要已知声源位置,这在实际应用中难以满足。由于近场声学的复杂性,目前有关近场波束形成麦克风阵列语音增强方法的研究相对较少。 相干性滤波器和广义旁瓣抵消器组合:通过模拟和实际试验,可以看出这个组合算法明显优于单独使用小阵列波束形成算法和相干性滤波器算法。

4总结

鉴于实际声学环境下噪声类型和噪声场的复杂性, 许多学者将性能互补的方法相结合, 以改善其中任何一种语音增强方法的噪声抑制能力。在实际应用中应根据具体的使用环境的噪声特性,设计合适的麦克风阵列结构,选择最佳的算法及其具体的实现形式。

5参考文献

[1]采用可调波束形成器的GSC 麦克风阵列语音增强方法_李芳兰(第34卷第12期电子与信息学报 2012年2月)

[2]基于麦克风阵列的语音增强算法概述_丁猛(2011 年第3 期大众科技No.3,2011(总第139 期))

[3]基于麦克风阵列的语音增强研究_周述畅(第22 卷第7 期 2012 年7 月计算机技术与发展)

[4]基于相干性滤波器的广义旁瓣抵消器麦克风小阵列语音增强方法_杨立春(第34卷第12期电子与信息学报2012年12月)

[5]用于麦克风阵列的阵元筛选方法研究_叶永(第25卷 第11期 2012年11月 传感技术学报)

基于麦克风阵列的语音增强方法

概述:在日常生活和工作中,语音通信是人与人之间互相传递信息沟通不可缺少的方式。在语音通信中,语音信号不可避免地会受到来自周围环境和传输媒介的外部噪声、通信设备的内部噪声及其他讲话者的干扰。这些干扰共同作用,最终使听者获得的是被噪声污染过的带噪声语音,严重影响了双方之间的交流。应用阵列信号处理技术的麦克风阵列能够充分利用语音信号的空时信息,具有灵活的波束控制、较高的空间分辨率、高的信号增益与较强的抗干扰能力等特点,逐渐成为强噪声环境中语音增强的研究热点。本文将介绍各种麦克风阵列语音增强方法,并总结各个方法的优劣。最终得出更好的、能够去噪的基于麦克风阵列的语音增强方法。

1麦克风阵列

麦克风阵列是将两个麦克风的信号耦合为一个信号。在频率响应中也可以根据时域中波束形成与空间滤波器相仿的应用,分析出接收到语音信号音源的方向以及其变化。采用该技术,能利用两个麦克风接收到声波的相位之间的差异对声波进行过滤,能最大限度将环境背景声音滤掉,只剩下需要的声波。对于在嘈杂的环境下使用采用了这种配置的设备,在嘈杂的环境下能使听者听起来很清晰,没杂音。

2基于麦克风阵列的语音增强方法

2.1基于自适应波束形成器的麦克风阵列语音增强

自适应波束形成是现在广泛使用的一类麦克风阵列语音增强方法。最早出现的自适应波束形成算法,其基本思想是在某方向有用信号的增益一定的前提下,使阵列输出信号的功率最小。在线性约束最小方差自适应波束形成器的基础上,1982 年Griffiths 和Jim 提出了广义旁瓣消除器成为了许多算法的基本框架。 广义旁瓣消除器(GSC )的工作原理是带噪声的语音信号同时通过自适应通道和非自适应通道,自适应通道中的阻塞矩阵将有用信号滤除后产生仅包含多通道噪声参考信号,自适应滤波器根据这个参考信号得到噪声估计,最后由这个被估计的噪声抵消非自适应通道中的噪声分量,从而得到有用的纯净语音信号。 麦克风阵列的自适应算法通过迭代运算获取波束形成的最优权矢量时,噪声模型的估计是一个非常关键的因素。它的好坏直接影响着系统波束形成的性能。系统地分析了最小均方( LMS) 自适应语音增强算法,并针对阻塞矩阵在估计噪声时存在的缺陷,在该算法的基础上提出了一种利用最小值控制递归平均( MCRA) 来估计噪声的方法。将此方法应用于波束形成,MCRA 估计出的噪声使LMS 自适应语音增强的效果更好和抗噪性更强。

2.2基于固定波束形成的麦克风阵列语音增强

固定波束形成技术是最简单最成熟的一种波束形成技术。1985 年美国学者Flanagan 提出采用延时-相加波束形成方法进行麦克风阵列语音增强,该方法通过对各路麦克风接收到的信号添加合适的延时补偿,使得各路输出信号在某一方向上保持同步,并在该方向的入射信号获得最大增益。此方法易于实现,但要想获取较高的噪声抑制能力则需要增加麦克风数目,然而对非相干噪声没有抑制能力,环境适应性差,因此实际中很少单独使用。后来出现的微分麦克风阵列、超方向麦克风阵列和固定频率波束形成技术也属于固定波束形成。

采用可调波束形成器的GSC麦克风阵列语言增强算法,其实质在GSC结构中的固定波束形成器前端引入各通道可调时延补偿,构造可调波束形成器进行声源方位估计,从而在目标声源方位获取阶段即可利用阵列的空间增益来提高方位估计性能。延迟求和波束形成器主要目的是增强主瓣方向目标信号,而抑制其他方向的噪声信号。

可调波束形成器结构如图2所示,它利用阵列形成不同波束角度时GSC的输出能量作为代价函数来估计波束对准声源时各通道语音的时延补偿值,以实现目标语音信号方向的定位.其基本思想是:假定目标信号入射角为α,利用不同的α 求出对应的通道补偿时延值τ 对各通道接收的语音信号进行时延补偿,然后通过传统GSC算法得到各自对应的增强语音,并比较不同α对应的输出信号能量,最大能量对应的α 即为实际目标信号方向,相应的τ即为目标语音到达相邻麦克风的时延补偿值。表1给出了2种比较算法的语音增强结果.从表中可以看出,在3种不同噪声、不同SNR下,该算法的消噪性能均优于传统的GSC算法。

2.3基于后置滤波的麦克风阵列语音增强

1988 年Zelinski 将维纳滤波器应用在麦克风阵列延时—相加波束形成的输出端,进一步提高了语音信号的降噪效果,提出了基于后置滤波的麦克风阵列语音增强方法(图2)。基于后置滤波的方法在对非相干噪声抑制方面,不仅具有良好的效果,还能够在一定程度上适应时变的声学环境。它的基本原理是:假设各麦克风接收到的目标信号相同,接收到的噪声信号独立同分布,信号和噪声不相关,根据噪声特性,依据某一准则实时更新滤波器权系数,对所接收到数据进行滤波,从而达到语音增强的目的。

图2 结合后置滤波的固定波束形成器

后置滤波方法存在以下不足:首先,算法的性能受到时延误差的影响,使增强后的语音信号有一定失真;其次,该方法对方向性的强干扰抑制效果不佳。后置滤波方法极少单独使用,常与其他方法联合使用。

2.4基于子空间的麦克风阵列语音增强

子空间方法的基本思想是计算出信号的自相关矩阵或协方差矩阵,然后对其进行奇异值分解,将带噪声语音信号划分为有用信号子空间和噪声子空间,利用有用信号子空间对信号进行重构,从而得到增强后的信号。由Asano 等提出的基于相干子空间的麦克风阵列语音增强方法是一种典型的子空间方法。该方法首先将语音信号划分到不同频带,然后在每个频带再利用空间信息,进行子空间处理。

2.5基于近场波束形成的麦克风阵列语音增强

当声源位于麦克风阵列近场(即阵列的入射波是球面波)情况下,声波的波前弯曲率不能被忽略,如果仍然把入射声波作为平面波考虑,采用常规的波束形成方法来拾取语音信号,那么麦克风阵列系统输出效果会很不理想。解决这个问题最直接的方法就是根据声源位置和近场声学的特性,对入射声波进行近场补偿,但是这种方法需要已知声源位置,这在实际应用中难以满足。由于近场声学的复杂性,目前有关近场波束形成麦克风阵列语音增强方法的研究相对较少。

2.6基于相干性滤波器和广义旁瓣抵消器组合的麦克风小阵列语音增强算法

在语音段和非语音段采用不同的平滑系数分别进行噪声谱估计,可以加快跟踪噪声谱的变化,并能保证较小的目标语音畸变;而对于采用的NLMS 算法,在语音段和非语音段采用不同的步长对滤波器权系数进行更新,可以最大限度避免在长语音段对噪声信号跟踪失效的问题。

本语音增强算法结构如图 1 所示。从图中可以看出,算法主要分为两部分:相干性滤波器和广义旁瓣抵消器,主要思想是利用基于VAD 的迭代相干性滤波器作为广义旁瓣抵消器的前置预处理滤波器,用以抑制包括混响和非相关性噪声信号在内的干扰,然后使用基于变步长NLMS 的广义旁瓣抵消器抑制残留的噪声信号。

3方法特点与对比 自适应波束:自适应如果噪声源的数目比麦克风数目少,自适应波束法能得到很好的性能。但是随着干扰数目的增加和混响的增强,自适应滤波器的降噪性能会逐渐降低。 固定波束:该类麦克风阵列语音增强方法实现简单且有韧性, 但需要较多麦克风才能得到较好的噪声抑制能力。因此, 实际中很少单独使用。

后置滤波:与自适应波束形成麦克风阵列语音增强方法相比, 后置滤波方法在对非相干噪声抑制方面, 具有明显的优势。但算法的性能受到时延误差的影响,使增强后的语音信号有一定失真。该方法对方向性的强干扰抑制效果不佳。后置滤波方法极少单独使用,常与其他方法联合使用。 子空间:基于子空间的麦克风阵列语音增强方法虽然降噪性受噪声场是否相关影响较小,在相干和非相干噪声场中均有一定的消噪效果,但是由于计算量较大,实现实时处理具有一定困难。 近场波束:这种方法需要已知声源位置,这在实际应用中难以满足。由于近场声学的复杂性,目前有关近场波束形成麦克风阵列语音增强方法的研究相对较少。 相干性滤波器和广义旁瓣抵消器组合:通过模拟和实际试验,可以看出这个组合算法明显优于单独使用小阵列波束形成算法和相干性滤波器算法。

4总结

鉴于实际声学环境下噪声类型和噪声场的复杂性, 许多学者将性能互补的方法相结合, 以改善其中任何一种语音增强方法的噪声抑制能力。在实际应用中应根据具体的使用环境的噪声特性,设计合适的麦克风阵列结构,选择最佳的算法及其具体的实现形式。

5参考文献

[1]采用可调波束形成器的GSC 麦克风阵列语音增强方法_李芳兰(第34卷第12期电子与信息学报 2012年2月)

[2]基于麦克风阵列的语音增强算法概述_丁猛(2011 年第3 期大众科技No.3,2011(总第139 期))

[3]基于麦克风阵列的语音增强研究_周述畅(第22 卷第7 期 2012 年7 月计算机技术与发展)

[4]基于相干性滤波器的广义旁瓣抵消器麦克风小阵列语音增强方法_杨立春(第34卷第12期电子与信息学报2012年12月)

[5]用于麦克风阵列的阵元筛选方法研究_叶永(第25卷 第11期 2012年11月 传感技术学报)


相关文章

  • 语音识别的痛点在哪,从交互到精准识别如何做?
  • 语音识别是目前应用最成熟的人机交互方式,从最初大家体验过的有屏手持设备这种近场的语音识别,如Siri以及各种语音助手,到现在,语音识别的应用已经完成了向智能硬件以及机器人上延伸,不过,新的人机交互对硬件.算法要求更加苛刻,各企业正面临着巨大 ...查看


  • 基于一阶差分传声器阵列频域LMS语音增强算法
  • 堕童堡查(v2 凹@6@@可@@嗡响⑨0⑨回U 文章编号:11102-8684{2010108--0053-04 基于一阶差分传声器阵列频域 LMS语音增强算法・ 王扇珍,宋辉,刘加 (清华大学电子工程系,清华信息科学与技术国家实验室(筹) ...查看


  • 基于麦克风阵列的近场声源定位
  • 2008年4月四川大学学报(自然科学版) Apr.2008 第45卷第2期 Journalof SichuanUniversity(NaturalScienceEdition) v01.45No.2 文章编号:0490-6756(2008) ...查看


  • 基于麦克风阵列的实时声源定位
  • 第27卷第6期 2010年6月 计算机应用与软件 Co m puter App lications and So ft w are Vo l 127No . 6Jun . 2010 基于麦克风阵列的实时声源定位 刘真旭 (上海交通大学计算机 ...查看


  • 2012年省级大学生创新实验项目申请书
  • 广东省大学生创新实验项目 申 报 书 学校名称 计划项目名称 广州中医药大学 基于 Kinect 体感控制和声感控制 的 PACS 系统的研究与开发 计划项目编号 项目来源 ()自主立题 (√)教师指导选题 计划项目负责人 通讯地址 邮政编 ...查看


  • 随机信号分析理论的应用综述
  • 随机信号分析理论的应用综述 (结课论文) 学院: 系别:电子信息工程 班级: 姓名: 学号: 指导老师: 目录 第一章 概述 1.1 随机信号分析的研究背景 1.2 随机信号分析的主要研究问题 第二章 随机信号分析的主要内容 2.1 随机信 ...查看


  • 基于机器人听觉的声源定位策略
  • 基于机器人听觉的声源定位策略 吕晓玲 张明路 河北工业大学 机械工程学院, 天津300130 摘要:针对机器人听觉定位,提出了五个传声器阵列作为机器人的耳朵,其中四个传声器组成的平面阵确定声源空间位置,另外一个传声器辅助实现声源位于机器人前 ...查看


  • 未来计算机接口的设想
  • 摘要:近些年来,脑-机接口BCI(brain-computer interaction)技术的研究在国际上引起了广泛的兴趣并获得了快速的发展.人类大脑能够产生多种信号, 包括电的.磁的.化学的以及大脑活动的机械反应等各种形式.这些信号可以通 ...查看


  • 基于AVR的录音笔设计
  • 成都电子机械高等专科学校成教院 毕 业 设 计(论 文) 论文题目: 基于AVR 单片机的录音笔设计 教 学 点: 重庆科创职业学院 职 学 号: [1**********] 专 业: 应用电子技术 成都电子机械高等专科学校成教院制 年 月 ...查看


热门内容