从有损到无损的音频编解码框架pdf

igital Si g nal Processing

文章编号:1002-8684(2010)12-0060-05

数字信号处理

AVS 无损音频编解码技术

从有损到无损的音频编解码框架

杨新辉1,舒海燕2,曲天书3,张

涛4,窦维蓓

5

论文··

(1. 中科开元信息技术(北京)有限公司,北京100080;2. 新加坡科研局资讯通信研究院,新加坡138632,新加坡;

3. 北京大学机器感知与智能教育部重点实验室,北京100871;4. 天津大学电子信息工程学院,天津300072;

5. 清华大学电子工程系,北京100084)

【摘

要】无损音频编码技术是用于数字音频数据存档,高质量音频编码的一种重要技术,提出了一种兼容有损编

解码器的无损音频编解码系统设计。包括通过有损编码残差进行无损扩展和独立的无损编解码两部分。系统采用了声道去相关、整型提升小波、线性预测、残差处理和算术熵编码等技术。在相当复杂度条件下,达到与国际主流无损音频编码技术相当的压缩性能。

【关键词】音频;无损压缩;声道去相关;算术编码;提升小波【中图分类号】TN912

【文献标识码】A

From Lossy to Lossless :A Framework of Audio Codec

YANG Xinhui 1,SHU Haiyan 2,QU Tianshu 3,ZHANG Tao 4,DOU Weibei 5

(1. CASKY eTech Co. ,Ltd. ,Beijing 100080,China ;2. Institute for Infocomm Research A*STARSingapore ,Singapore 138632,

Singapore ;3. Key Laboratory of Machine Perception (Minister of Education ),Peking University ,Beijing 100871,China ;

4. School of Electornics and Information Engineering ,Tianjin University ,Tianjin 300072,China ;

5. Department of Electronic Engineering ,Tsinghua University ,Beijing 100084,China )

【Abstract 】Lossless audio technology is a kind of important audio coding technology which is used to archive

digital audio data and encode high quality audio. Lossless audio codec system with lossy codec is described. It

includes lossless extension through lossy coding residual and independent lossless codec. Channel decorrelation ,in-teger lifting wavelet ,linear prediction ,residuals handling and arithmetic entropy coding are adopted. In very com-plex conditions ,the compression performance is achieved to internation mainstream lossless audio coding technolgy.

【Key words 】audio ;lossless compression ;channel decorrelation ;arithmetical coding ;lifting wavelet

1

引言

随着音视频应用的普及,用户对视听产品中的音

复成原始音频;(2)支持多种采样率:32~192kHz ;(3)支持多声道:单声道,立体声,多声道;(4)高压缩效率:在相当的编码复杂度下实现较高压缩率;(5)较低的复杂度:算法解码复杂较低,解码速度快,易于行业实现;(6)支持有损无损混合编解码模式:独立无损模式和有损无损混合模式;(7)个别技术满足随机访问要求:48kHz 采样率下,达到23ms 的随机访问精度。

频质量的要求日益提高,有损编码技术因其具有较高压缩比,仍然是音频编码技术的主流,但因有损编码过程中会产生音质的下降,无法满足人们对高质量音频回放和无损存档需求,因此无损音频编解码需求应运而生,并在近年来获得更多的关注。特别是大容量存储器和蓝光光盘技术的成熟应用,为无损音频编码技术[1-2]应用提供了广阔市场。

目前,国际上普遍应用的几种无损编码技术包括两种模式:有损无损混合模式和独立无损模式。如采用有损无损混合模式的MPEG-4SLS 标准;采用独立无损模式的MPEG-4ALS 标准,Monkey ′s Audio ,FLAC ,

2008年,中国工业与信息化部“数字音视频编解码技术标准工作组”(AVS )[3-5]颁布了“信息技术—先进音视频编码第3部分:音频”标准建议,以下简称

AVS-P3。AVS-P3的核心是高保真有损音频压缩编码技术,研究AVS-P3的无损扩展技术,扩展其应用领域就显得非常实际。另外,考虑到无损音频数据存档等纯无损数字音频技术的应用需求,研究独立的纯无损音频压缩技术也同样重要。2010年,AVS 工作组专门成立了“无损音频编码专题组”,通过技术提案征集、技术

TAK 和WAVPack 等。这些技术普遍满足较高的技术指标要求:(1)数据无损:无损编码数据可以被完全恢

輪电声技术2010年第34卷第12期讂輮

数字信号处理

AVS 无损音频编解码技术

评估、性能评测和技术整合等过程,形成了“从有损到无损的音频编解码系统”标准技术提案[6]。以下简称“AVS 无损音频”。

频定点解码器。

输入音频信号AVS 有损

编码器

Digital Si g nal Processin

G

核心码流

定点核心无损补偿模式

无损编码器

码输出流码流复用器

2AVS 无损音频编解码技术概述

AVS 无损音频编解码技术既是兼容AVS 有损编解码器的无损扩展技术,又具有低复杂度、高压缩效率的独立纯无损编解码功能,具有较好的灵活性、可扩展性和高效性。AVS 无损音频技术在设计时,充分考虑有损编解码器的特点和码流结构,根据具体应用需求,无损编解码框架可以支持独立的无损编解码和有损无损混合编解码两种模式供用户选择。

图1

缓冲器纯无损模式

无损编码码流

AVS 无损音频编码框架

编码过程为:在选用纯无损模式时,原始音频输入直接传送到AVS 无损编码器进行编码;在混合模式时,原始音频数据先输入到AVS 有损编码器进行编码,编码后的数据送入定点核心解码器解码,用于生成残差信号,之后对残差信号进行无损编码,在码流复用器中将有损编码数据和无损编码数据进行打包处理,合成有损无损混合码流。

2.1有损/无损混合模式

为了获得更好的灵活性和后向兼容性,在有损编

码基础上扩展无损编码,采用如下两种方法:

第一种,通过有损残差实现无损扩展。有损数据来自有损压缩后的解码器输出,原始数据与有损数据之间的残差使用无损编码器进行残差编码,在无损编码码流中,每帧数据既包含有损编码数据A ,又包含残差编码数据Delta ,即A+Delta模式。

第二种,分别用有损编码器和无损编码器对原始音频数据进行编码,在无损编码码流中,每帧数据既有有损编码数据A ,又有无损编码数据B ,即A+B模式。

以上两种无损扩展方法分别具有不同的特点,A+

2.4从有损到无损的解码框架

解码是编码的反向过程,从有损到无损的音频解

码系统包括:码流解复用器、定点有损核心解码器和无损解码器,如图2所示。

核心解码音频(有损)纯无损模式

解码器无损补偿模式

核心码流

无损编码码流

流输入解码流复用器

无损解码音频

无损解码器

图2AVS 有损解码器的无损扩展

Delta 模式能够在混合条件下获得较好压缩比,类似于MPEG-4的可伸缩无损编码标准SLS (Scalable Lossless Coding ),但编码复杂度相对较高;A+B模式具有较好的灵活性,解码复杂度低,但在压缩性能上与A+Delta模式相比平均要差5%左右。两种压缩方法均可以对有损数据实现后向兼容,即:有损解码器可以解码无损扩展码流中有损编码数据A 。

解码过程为:首先,码流解复用器解析输入的AVS 无损扩展音频码流,分离有损编码和纯无损编码两部分码流;其次,有损码流进入定点核心解码器解码,获得有损音频数据A ;无损编码码流则进入无损解码器进行解码,依据编码模式,输出A+Delta模式中的Delta 或A+B模式中的B 。根据码流结构定义以及输出需求,无损扩展解码器可以直接输出无损解码音频B ,或者将无损解码器输出的Delta 与核心定点解码音频A 一起整合输出无损解码音频(A+Delta残差模式)。

在AVS 无损编/解码扩展中,核心技术是无损编码器和无损解码器,下面从技术要点和实现原理上重点介绍AVS 无损音频编/解码器。

2.2独立纯无损模式

在没有或不需要支持有损编解码器的情况下,

AVS 无损编码系统将独立工作于纯无损编码模式,被称为B 模式,类似于A+B模式中的A=0。相对于A+B和

A+Delta两种混合模式,单纯无损编码的B 模式的压缩效率明显高,而且计算复杂度也明显低于混合模式。

3

3.1

AVS 无损音频编解码模块介绍

AVS 无损音频编码器

AVS 无损编码器包括对多声道信号的去相关处理

2.3从有损到无损的编码框架

AVS 无损音频编码系统包括有损编码器、有损定点解码器、无损编码器和码流复用器。如图1所示,它是纯无损模式和有损无损混合模式(对应图1中的无损补偿模式)并存的扩展框架。其中无损编码器是独立的B 模式无损编码器,定点核心解码器是有损音

模块、整型提升小波分解、线性预测器、LPC 系数量化和熵编码这几个关键模块,如图3所示。

无损编码过程为:对输入到无损编码器的原始数据首先通过声道去相关模块进行多声道下混处理。对

电声技术2010年第34卷第12期

讂輯輪

igital Si g nal Processing

输入信号声道

重建

整型提升小波分解

小波边信息

数字信号处理

AVS 无损音频编解码技术

(5)熵编码器:对归一化处理后的预测残差进行熵编码。

线性预测器(LPC )

预处理器

熵编码器

编码码流

LSB 和符号位

3.3.1声道去相关

在去相关模块中,AVS 无损编码器对两声道以上

LPC 系数计算和量化

量化LPC 系数

的多声道数据,根据声道组合不同,通过Mid/Side方法进行编码:可以选择对原始声道进行编码,也可以选择利用和声道和差声道进行编码。

图3AVS 无损音频编码器

下混声道,采用整型提升小波进行子带分解(时-频映射),各子带信号分别采用传统的线性预测器进行预测,生成预测残差信号。预测残差信号首先经过预处理器的归一化处理,产生归一化输出信号、LSB 信号以及信号符号位。归一化的各子带预测输出信号经过熵编码器进行熵编码,生成编码码流。

无损编码器的输出码流,即无损编码码流,由熵编码器的编码码流、LSB 信号、符号位、量化后的LPC 系数以及小波边信息组成。

Mid =(L +R )/2Side =(L -R )

(1)

将多声道数据中,根据声道间数据相关性和声道对组合采用方法进行去相关处理,并且在单帧内,比较原始声道和和声声道进行相关性判断,选择最优编码声道对组合。

3.3.2整型提升小波

小波变换对音频信号进行分带处理,生成的窄带

信号(细节信号和近似信号)再进一步采用LPC 处理,以提高编码器的压缩性能。考虑到浮点数运算的截断误差问题,该模块用整型提升小波来实现。

图5~6分别展示了整型提升小波的编码和解码处理过程。图中,P 为预测算子,U 为更新算子。

x [2n ]

x [n ]

量化LPC 系数小波边信息

分裂

3.2AVS 无损音频解码器

无损解码端处理是编码的反向过程,如图4所示。

输出信号声道

重建

整型提升小波重构

线性预测器(LPC )

后处理器熵解码器

LSB 和符号位

编码码流

P 1

U 1

xd [n ]

xs [n ]

P 2

U 2

ca [n ]

x [2n+1]

xs [n ]

P 2

cd [n ]

图5

x [2n ]

x [n ]

隔合

整型提升小波编码

图4无损解码器

无损解码器的输入包括:编码码流、LSB 信号、符号位信号、量化LPC 系数以及小波边信息。熵解码器对编码码流进行熵解码,然后通过后处理器,同LSB 和符号位,一起组合生成预测残差。线性预测器根据量化的LPC 系数对预测残差进行重建,生成各子带信号。利用整型提升小波对子带信号和小波边信息进行重构,得到相应的原始无损信号。最后,再通过声道去相关重建,生成相应声道的无损输出信号。

P 1

U 1

xd [n ]

U 2

ca [n ]

x [2n+1]

cd [n ]

图6整型提升小波解码

3.3.3线性预测器(LPC )

为确保音频信号能够在不同的运算平台上无损重

建,线性预测器以整数运算实现。LPC 偏相关系数可由

Levinson-Durbin 算法[2]算出。

对于长度为N 的输入序列x ,LPC 生成残差序列d 的过程为

3.3AVS 无损音频编码技术主要模块构成

AVS 无损音频编码器由以下5部分构成:(1)声道去相关:根据声道间的相关性利用和差编码进行去相关处理;

(2)整型提升小波分解:基于整型提升小波对输入音频信号分带,并生成边信息;

(3)线性预测器(LPC ):使用量化后的LPC 系数计算预测残差;

(4)预处理器:对预测残差信号进行归一化处理,同时输出相应的LSB 信号和符号位;

d [n ]=

x [n ],n =0≤

n ≤ΣΣ19

≤Σ·2+Σc [n ][k ]x [n-k ]Σ

,x [n ]-1≤n

2Σ≤Σ

≤Σlpc_order

Σ19

≤≤·2+Σc [lpc_order][k ]x [n-k ]Σ

,lpc_order≤n

≤Σ20

2≤ΣΣ

(2)

輪电声技术2010年第34卷第12期讂輰

数字信号处理

AVS 无损音频编解码技术

当level =0时,式中的x 为原始输入信号,当level =

Digital Si g nal Processin

G

1时,x 则为小波模块输出的ca ,cd 信号。

由残差序列d 重构LPC 输入序列x 的过程为

4AVS 无损音频编码性能评价

为了评测AVS 编解码技术的压缩效率,笔者选取

x [n ]=

d [n ],n =0≤

n ≤ΣΣ19

≤Σ·x [n-k ]Σ2+Σc [n ][k ]

,d [n ]+1≤n

2ΣΣ≤

≤Σlpc_order

Σ19

≤≤·2+Σc [lpc_order][k ]x [n-k ]Σ

,lpc_order≤n

2≤ΣΣ

(3)

了语音、乡村和爵士乐、电影配乐等不同类型的音频信号作为测试序列,包括单声道、立体声、多声道等声场特征。采用对比方式进行压缩效率评价,即选择国际上通用的无损音频编码产品作为测试对比,对相同的测试序列进行无损编码,比较各自的压缩效率。

4.1混合模式下性能比较

有损无损混合模式下,选择MPEG-4SLS 标准与

AVS 无损编码标准进行比较,主要分为A+B(对应SLS 的Non-Core 编码模式)和A+Delta(对应SLS 的Core 模式)的比较。

图9是Non-Core 编码模式下的比较结果。在A+B模式(Non-Core 模式)条件下,随着编码码率的提高,

3.3.4预处理器

编码预处理分为两步:(1)残差能量归一化;(2)输

出残差样值符号。第一步指的是:将输入残差样值序列中最前边的几个样值进行下移降幅操作,以便整个序列保持较小的动态范围,从而提高后续熵编码的效率。第二步指的是根据残差d [i ]的符号输出残差样值符号。

AVS 无损音频的压缩效率优于MPEG-4的SLS 。

3.3.5熵编码

熵编码器处理过程如图7所示,预测残差先进行

数据分段,划分为sub 段,之后计算每段样值的均值,再对均值进行量化,将均值索引编码和残差值样值的高比特位(MSB )进行算术编码,算术编码使用的概率表通过索引均值的反向量化和概率模板生成,经过算术编码的编码码流在和LSB 进行合并形成熵编码码流。

预测残差数据

分段

MSB LSB 分流

MSB 位元索引编码

码输出

算术编码

流码流

算术码流

编码器

并概率表生成

概率模板

LSB 位元流

图10是Core 编码模式下的比较结果。在A+Delta无损扩展(Core 模式)条件下,在编码码率大于96kb/s时,AVS 无损音频压缩率优于SLS 无损。

均值计算

量化

反向

均值量化索引

图7熵编码器

熵解码器的处理过程如图8所示,(1)反向量化;(2)概率模板;(3)概率表生成

算术解码器对残差的

MSB 进行算术解码。解码后的MSB 比特与输入码流中的LSB 比特合并形成预测残差信号。

输入码流码流

分流算术编码码流

LSB MSB

算术解码器生成

索引解码反向量化

MSB 预测残差LSB 合并

4.2独立模式下性能比较

独立无损编码(B 模式),选择AVS 无损编码器与

概率模板

MPEG-4标准的ALS 和一些国际上比较流行的无损编码技术进行比较。选定的无损编码Monkey ′s Audio [7]

图8熵解码器

电声技术2010年第34卷第12期

讂輱輪

igital Si g nal Processing

(参数:extra high/normal),TAK [8](参数:Normal ),ALS

数字信号处理

AVS 无损音频编解码技术

频标准建议,并被中国蓝光(CBHD )标准工作组采用。

参考文献

RM21(参数:Rice/BGMC1024sample ),FLAC [9](参数:Normal ),WavPack [10](参数:Default )等。

各编码器的压缩效率列于表1中,结果表明,AVS 无损编码器的压缩性能与其他无损编码器相比,在相当的编码参数设置下,压缩比处于前列。跟MPEG-4的ALS 标准相比,在帧长度为1024个样点条件下,相同的LPC 阶数,AVS 无损编码压缩效率优于ALS 采用

[1]REZNIK Y A. Coding of prediction residual in MPEG-4standard for lossless audio coding ,acoustics ,speech and signal processing ,2004[C]//Proceedings(ICASSP 04)of IEEE Internaltional Conference. 2004,3:1024-1027.

[2]ROBINSON T. SHORTEN :Simple lossless and near-lossless

waveform compression ,Tech.Rep ,CUED/FINFENG/TR.156[R].Cambridge :UK Cambridge University ,1994.

[3]高文,黄铁军. 信源编码标准AVS 及其在数字电视中的应

用[J].电视技术,2003(11):4-6.

BGMC 编码的模式。

表1

编码器名称

编码平均压缩率

平均压缩率/%

32kHz/16bit 44.1kHz/16bit 96kHz/24bit

192kHz/24bit

50.7751.4452.2951.9552.2352.4953.3154.39

47.0247.9847.9548.0948.3248.6049.3850.64

47.1946.3747.9747.5749.0847.8951.6851.38

35.5735.2235.0135.5436.3135.9140.3346.03

Monkey EH AVS Lossless

TAK ALS (BGMC )Monkey Normal ALS FLAC WavPack

[4]黄铁军,高文. AVS 标准制定背景与知识产权状况[J].电视

技术,2005(7):4-7.

[5]王明伟. AVS 中的音视频编码压缩技术[J].电视技术,2006

(6):13-16.

[6]AVS 工作组. AVS lossless Committee Draft (CD )document

(N1738)[EB/OL].(2010-09-16)[2010-11-10].ftp ://159.226.

42.57. [7]

ASHLAND M T. Monkey ′s Audio compression program[EB/OL].(2003-02-10)[2010-11-02].saudio.com. [8]

BECKER T. TAK :(T )om ′s lossless (A )udio (K )ompressor. )[EB/OL].(2006-01-18)[2010-10-20].www.thbeck.de. [9]Xiph Org Foundation ,COALSON J. FLAC open source audio

compression[EB/OL].(2006-03-12)[2010-10-18].http ://www.xihp.org.

[10]BRYANT D. WavPack Audio Compression[EB/OL].(2005-03-10)[2010-10-25].http ://www.wavpack.com.[责任编辑]史丽丽

[收稿日期]2010-11-01

http ://www.monkey-

5

结论

AVS 无损音频编解码系统实现了从有损到无损

的伸缩编码方案,具有灵活、可扩展和高性能的特点。特别是在压缩效率方面,在编码条件相当的情况下,AVS 无损音频编解码器的压缩性能优于现行国际标准和多数流行无损编码产品。该系统算法复杂度低,易于在硬件平台实现,并且支持有损无损混合模式和独立无损编码模式,具有较好的灵活性,将是无损音频编码技术方面一种新的选择。该系统已经成为中国工业与信息化部“数字音视频编解码技术标准工作组”(AVS )的音

(上接第56页)

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

该音准指示仪的外观如图5所示。

[2]柏静,韦岗. 一种基于线性预测与自相关函数的语音基音

周期检测新算法[J].电声技术,2005(8):43-46.

[3]张永亮,李凌,张先庭. 基于折线削波电平的自相关函数法

检测基音[J].电声技术,2009,33(1):52-54.

[4]朱明武,李永新,卜雄洙. 测试信号处理[M].北京:北京航空

航天大学出版社,2006.

[5]赵晓群,王光艳. 汉语语音基音轨迹的形态学滤波和平滑

[J].信号处理,2003,19(4):354-357.

参考文献

[6]陈学煌. 复杂声音信号基频检测和处理的一种方法及实例

[J].应用声学,2007,26(6):341-346. [责任编辑]史丽丽

[收稿日期]2010-08-16

[1]鲍长春,樊昌信. 基于归一化互相关函数的基音检测算法

[J].通信学报,1998,19(10):27-30.

輪电声技术2010年第34卷第12期讂輲

igital Si g nal Processing

文章编号:1002-8684(2010)12-0060-05

数字信号处理

AVS 无损音频编解码技术

从有损到无损的音频编解码框架

杨新辉1,舒海燕2,曲天书3,张

涛4,窦维蓓

5

论文··

(1. 中科开元信息技术(北京)有限公司,北京100080;2. 新加坡科研局资讯通信研究院,新加坡138632,新加坡;

3. 北京大学机器感知与智能教育部重点实验室,北京100871;4. 天津大学电子信息工程学院,天津300072;

5. 清华大学电子工程系,北京100084)

【摘

要】无损音频编码技术是用于数字音频数据存档,高质量音频编码的一种重要技术,提出了一种兼容有损编

解码器的无损音频编解码系统设计。包括通过有损编码残差进行无损扩展和独立的无损编解码两部分。系统采用了声道去相关、整型提升小波、线性预测、残差处理和算术熵编码等技术。在相当复杂度条件下,达到与国际主流无损音频编码技术相当的压缩性能。

【关键词】音频;无损压缩;声道去相关;算术编码;提升小波【中图分类号】TN912

【文献标识码】A

From Lossy to Lossless :A Framework of Audio Codec

YANG Xinhui 1,SHU Haiyan 2,QU Tianshu 3,ZHANG Tao 4,DOU Weibei 5

(1. CASKY eTech Co. ,Ltd. ,Beijing 100080,China ;2. Institute for Infocomm Research A*STARSingapore ,Singapore 138632,

Singapore ;3. Key Laboratory of Machine Perception (Minister of Education ),Peking University ,Beijing 100871,China ;

4. School of Electornics and Information Engineering ,Tianjin University ,Tianjin 300072,China ;

5. Department of Electronic Engineering ,Tsinghua University ,Beijing 100084,China )

【Abstract 】Lossless audio technology is a kind of important audio coding technology which is used to archive

digital audio data and encode high quality audio. Lossless audio codec system with lossy codec is described. It

includes lossless extension through lossy coding residual and independent lossless codec. Channel decorrelation ,in-teger lifting wavelet ,linear prediction ,residuals handling and arithmetic entropy coding are adopted. In very com-plex conditions ,the compression performance is achieved to internation mainstream lossless audio coding technolgy.

【Key words 】audio ;lossless compression ;channel decorrelation ;arithmetical coding ;lifting wavelet

1

引言

随着音视频应用的普及,用户对视听产品中的音

复成原始音频;(2)支持多种采样率:32~192kHz ;(3)支持多声道:单声道,立体声,多声道;(4)高压缩效率:在相当的编码复杂度下实现较高压缩率;(5)较低的复杂度:算法解码复杂较低,解码速度快,易于行业实现;(6)支持有损无损混合编解码模式:独立无损模式和有损无损混合模式;(7)个别技术满足随机访问要求:48kHz 采样率下,达到23ms 的随机访问精度。

频质量的要求日益提高,有损编码技术因其具有较高压缩比,仍然是音频编码技术的主流,但因有损编码过程中会产生音质的下降,无法满足人们对高质量音频回放和无损存档需求,因此无损音频编解码需求应运而生,并在近年来获得更多的关注。特别是大容量存储器和蓝光光盘技术的成熟应用,为无损音频编码技术[1-2]应用提供了广阔市场。

目前,国际上普遍应用的几种无损编码技术包括两种模式:有损无损混合模式和独立无损模式。如采用有损无损混合模式的MPEG-4SLS 标准;采用独立无损模式的MPEG-4ALS 标准,Monkey ′s Audio ,FLAC ,

2008年,中国工业与信息化部“数字音视频编解码技术标准工作组”(AVS )[3-5]颁布了“信息技术—先进音视频编码第3部分:音频”标准建议,以下简称

AVS-P3。AVS-P3的核心是高保真有损音频压缩编码技术,研究AVS-P3的无损扩展技术,扩展其应用领域就显得非常实际。另外,考虑到无损音频数据存档等纯无损数字音频技术的应用需求,研究独立的纯无损音频压缩技术也同样重要。2010年,AVS 工作组专门成立了“无损音频编码专题组”,通过技术提案征集、技术

TAK 和WAVPack 等。这些技术普遍满足较高的技术指标要求:(1)数据无损:无损编码数据可以被完全恢

輪电声技术2010年第34卷第12期讂輮

数字信号处理

AVS 无损音频编解码技术

评估、性能评测和技术整合等过程,形成了“从有损到无损的音频编解码系统”标准技术提案[6]。以下简称“AVS 无损音频”。

频定点解码器。

输入音频信号AVS 有损

编码器

Digital Si g nal Processin

G

核心码流

定点核心无损补偿模式

无损编码器

码输出流码流复用器

2AVS 无损音频编解码技术概述

AVS 无损音频编解码技术既是兼容AVS 有损编解码器的无损扩展技术,又具有低复杂度、高压缩效率的独立纯无损编解码功能,具有较好的灵活性、可扩展性和高效性。AVS 无损音频技术在设计时,充分考虑有损编解码器的特点和码流结构,根据具体应用需求,无损编解码框架可以支持独立的无损编解码和有损无损混合编解码两种模式供用户选择。

图1

缓冲器纯无损模式

无损编码码流

AVS 无损音频编码框架

编码过程为:在选用纯无损模式时,原始音频输入直接传送到AVS 无损编码器进行编码;在混合模式时,原始音频数据先输入到AVS 有损编码器进行编码,编码后的数据送入定点核心解码器解码,用于生成残差信号,之后对残差信号进行无损编码,在码流复用器中将有损编码数据和无损编码数据进行打包处理,合成有损无损混合码流。

2.1有损/无损混合模式

为了获得更好的灵活性和后向兼容性,在有损编

码基础上扩展无损编码,采用如下两种方法:

第一种,通过有损残差实现无损扩展。有损数据来自有损压缩后的解码器输出,原始数据与有损数据之间的残差使用无损编码器进行残差编码,在无损编码码流中,每帧数据既包含有损编码数据A ,又包含残差编码数据Delta ,即A+Delta模式。

第二种,分别用有损编码器和无损编码器对原始音频数据进行编码,在无损编码码流中,每帧数据既有有损编码数据A ,又有无损编码数据B ,即A+B模式。

以上两种无损扩展方法分别具有不同的特点,A+

2.4从有损到无损的解码框架

解码是编码的反向过程,从有损到无损的音频解

码系统包括:码流解复用器、定点有损核心解码器和无损解码器,如图2所示。

核心解码音频(有损)纯无损模式

解码器无损补偿模式

核心码流

无损编码码流

流输入解码流复用器

无损解码音频

无损解码器

图2AVS 有损解码器的无损扩展

Delta 模式能够在混合条件下获得较好压缩比,类似于MPEG-4的可伸缩无损编码标准SLS (Scalable Lossless Coding ),但编码复杂度相对较高;A+B模式具有较好的灵活性,解码复杂度低,但在压缩性能上与A+Delta模式相比平均要差5%左右。两种压缩方法均可以对有损数据实现后向兼容,即:有损解码器可以解码无损扩展码流中有损编码数据A 。

解码过程为:首先,码流解复用器解析输入的AVS 无损扩展音频码流,分离有损编码和纯无损编码两部分码流;其次,有损码流进入定点核心解码器解码,获得有损音频数据A ;无损编码码流则进入无损解码器进行解码,依据编码模式,输出A+Delta模式中的Delta 或A+B模式中的B 。根据码流结构定义以及输出需求,无损扩展解码器可以直接输出无损解码音频B ,或者将无损解码器输出的Delta 与核心定点解码音频A 一起整合输出无损解码音频(A+Delta残差模式)。

在AVS 无损编/解码扩展中,核心技术是无损编码器和无损解码器,下面从技术要点和实现原理上重点介绍AVS 无损音频编/解码器。

2.2独立纯无损模式

在没有或不需要支持有损编解码器的情况下,

AVS 无损编码系统将独立工作于纯无损编码模式,被称为B 模式,类似于A+B模式中的A=0。相对于A+B和

A+Delta两种混合模式,单纯无损编码的B 模式的压缩效率明显高,而且计算复杂度也明显低于混合模式。

3

3.1

AVS 无损音频编解码模块介绍

AVS 无损音频编码器

AVS 无损编码器包括对多声道信号的去相关处理

2.3从有损到无损的编码框架

AVS 无损音频编码系统包括有损编码器、有损定点解码器、无损编码器和码流复用器。如图1所示,它是纯无损模式和有损无损混合模式(对应图1中的无损补偿模式)并存的扩展框架。其中无损编码器是独立的B 模式无损编码器,定点核心解码器是有损音

模块、整型提升小波分解、线性预测器、LPC 系数量化和熵编码这几个关键模块,如图3所示。

无损编码过程为:对输入到无损编码器的原始数据首先通过声道去相关模块进行多声道下混处理。对

电声技术2010年第34卷第12期

讂輯輪

igital Si g nal Processing

输入信号声道

重建

整型提升小波分解

小波边信息

数字信号处理

AVS 无损音频编解码技术

(5)熵编码器:对归一化处理后的预测残差进行熵编码。

线性预测器(LPC )

预处理器

熵编码器

编码码流

LSB 和符号位

3.3.1声道去相关

在去相关模块中,AVS 无损编码器对两声道以上

LPC 系数计算和量化

量化LPC 系数

的多声道数据,根据声道组合不同,通过Mid/Side方法进行编码:可以选择对原始声道进行编码,也可以选择利用和声道和差声道进行编码。

图3AVS 无损音频编码器

下混声道,采用整型提升小波进行子带分解(时-频映射),各子带信号分别采用传统的线性预测器进行预测,生成预测残差信号。预测残差信号首先经过预处理器的归一化处理,产生归一化输出信号、LSB 信号以及信号符号位。归一化的各子带预测输出信号经过熵编码器进行熵编码,生成编码码流。

无损编码器的输出码流,即无损编码码流,由熵编码器的编码码流、LSB 信号、符号位、量化后的LPC 系数以及小波边信息组成。

Mid =(L +R )/2Side =(L -R )

(1)

将多声道数据中,根据声道间数据相关性和声道对组合采用方法进行去相关处理,并且在单帧内,比较原始声道和和声声道进行相关性判断,选择最优编码声道对组合。

3.3.2整型提升小波

小波变换对音频信号进行分带处理,生成的窄带

信号(细节信号和近似信号)再进一步采用LPC 处理,以提高编码器的压缩性能。考虑到浮点数运算的截断误差问题,该模块用整型提升小波来实现。

图5~6分别展示了整型提升小波的编码和解码处理过程。图中,P 为预测算子,U 为更新算子。

x [2n ]

x [n ]

量化LPC 系数小波边信息

分裂

3.2AVS 无损音频解码器

无损解码端处理是编码的反向过程,如图4所示。

输出信号声道

重建

整型提升小波重构

线性预测器(LPC )

后处理器熵解码器

LSB 和符号位

编码码流

P 1

U 1

xd [n ]

xs [n ]

P 2

U 2

ca [n ]

x [2n+1]

xs [n ]

P 2

cd [n ]

图5

x [2n ]

x [n ]

隔合

整型提升小波编码

图4无损解码器

无损解码器的输入包括:编码码流、LSB 信号、符号位信号、量化LPC 系数以及小波边信息。熵解码器对编码码流进行熵解码,然后通过后处理器,同LSB 和符号位,一起组合生成预测残差。线性预测器根据量化的LPC 系数对预测残差进行重建,生成各子带信号。利用整型提升小波对子带信号和小波边信息进行重构,得到相应的原始无损信号。最后,再通过声道去相关重建,生成相应声道的无损输出信号。

P 1

U 1

xd [n ]

U 2

ca [n ]

x [2n+1]

cd [n ]

图6整型提升小波解码

3.3.3线性预测器(LPC )

为确保音频信号能够在不同的运算平台上无损重

建,线性预测器以整数运算实现。LPC 偏相关系数可由

Levinson-Durbin 算法[2]算出。

对于长度为N 的输入序列x ,LPC 生成残差序列d 的过程为

3.3AVS 无损音频编码技术主要模块构成

AVS 无损音频编码器由以下5部分构成:(1)声道去相关:根据声道间的相关性利用和差编码进行去相关处理;

(2)整型提升小波分解:基于整型提升小波对输入音频信号分带,并生成边信息;

(3)线性预测器(LPC ):使用量化后的LPC 系数计算预测残差;

(4)预处理器:对预测残差信号进行归一化处理,同时输出相应的LSB 信号和符号位;

d [n ]=

x [n ],n =0≤

n ≤ΣΣ19

≤Σ·2+Σc [n ][k ]x [n-k ]Σ

,x [n ]-1≤n

2Σ≤Σ

≤Σlpc_order

Σ19

≤≤·2+Σc [lpc_order][k ]x [n-k ]Σ

,lpc_order≤n

≤Σ20

2≤ΣΣ

(2)

輪电声技术2010年第34卷第12期讂輰

数字信号处理

AVS 无损音频编解码技术

当level =0时,式中的x 为原始输入信号,当level =

Digital Si g nal Processin

G

1时,x 则为小波模块输出的ca ,cd 信号。

由残差序列d 重构LPC 输入序列x 的过程为

4AVS 无损音频编码性能评价

为了评测AVS 编解码技术的压缩效率,笔者选取

x [n ]=

d [n ],n =0≤

n ≤ΣΣ19

≤Σ·x [n-k ]Σ2+Σc [n ][k ]

,d [n ]+1≤n

2ΣΣ≤

≤Σlpc_order

Σ19

≤≤·2+Σc [lpc_order][k ]x [n-k ]Σ

,lpc_order≤n

2≤ΣΣ

(3)

了语音、乡村和爵士乐、电影配乐等不同类型的音频信号作为测试序列,包括单声道、立体声、多声道等声场特征。采用对比方式进行压缩效率评价,即选择国际上通用的无损音频编码产品作为测试对比,对相同的测试序列进行无损编码,比较各自的压缩效率。

4.1混合模式下性能比较

有损无损混合模式下,选择MPEG-4SLS 标准与

AVS 无损编码标准进行比较,主要分为A+B(对应SLS 的Non-Core 编码模式)和A+Delta(对应SLS 的Core 模式)的比较。

图9是Non-Core 编码模式下的比较结果。在A+B模式(Non-Core 模式)条件下,随着编码码率的提高,

3.3.4预处理器

编码预处理分为两步:(1)残差能量归一化;(2)输

出残差样值符号。第一步指的是:将输入残差样值序列中最前边的几个样值进行下移降幅操作,以便整个序列保持较小的动态范围,从而提高后续熵编码的效率。第二步指的是根据残差d [i ]的符号输出残差样值符号。

AVS 无损音频的压缩效率优于MPEG-4的SLS 。

3.3.5熵编码

熵编码器处理过程如图7所示,预测残差先进行

数据分段,划分为sub 段,之后计算每段样值的均值,再对均值进行量化,将均值索引编码和残差值样值的高比特位(MSB )进行算术编码,算术编码使用的概率表通过索引均值的反向量化和概率模板生成,经过算术编码的编码码流在和LSB 进行合并形成熵编码码流。

预测残差数据

分段

MSB LSB 分流

MSB 位元索引编码

码输出

算术编码

流码流

算术码流

编码器

并概率表生成

概率模板

LSB 位元流

图10是Core 编码模式下的比较结果。在A+Delta无损扩展(Core 模式)条件下,在编码码率大于96kb/s时,AVS 无损音频压缩率优于SLS 无损。

均值计算

量化

反向

均值量化索引

图7熵编码器

熵解码器的处理过程如图8所示,(1)反向量化;(2)概率模板;(3)概率表生成

算术解码器对残差的

MSB 进行算术解码。解码后的MSB 比特与输入码流中的LSB 比特合并形成预测残差信号。

输入码流码流

分流算术编码码流

LSB MSB

算术解码器生成

索引解码反向量化

MSB 预测残差LSB 合并

4.2独立模式下性能比较

独立无损编码(B 模式),选择AVS 无损编码器与

概率模板

MPEG-4标准的ALS 和一些国际上比较流行的无损编码技术进行比较。选定的无损编码Monkey ′s Audio [7]

图8熵解码器

电声技术2010年第34卷第12期

讂輱輪

igital Si g nal Processing

(参数:extra high/normal),TAK [8](参数:Normal ),ALS

数字信号处理

AVS 无损音频编解码技术

频标准建议,并被中国蓝光(CBHD )标准工作组采用。

参考文献

RM21(参数:Rice/BGMC1024sample ),FLAC [9](参数:Normal ),WavPack [10](参数:Default )等。

各编码器的压缩效率列于表1中,结果表明,AVS 无损编码器的压缩性能与其他无损编码器相比,在相当的编码参数设置下,压缩比处于前列。跟MPEG-4的ALS 标准相比,在帧长度为1024个样点条件下,相同的LPC 阶数,AVS 无损编码压缩效率优于ALS 采用

[1]REZNIK Y A. Coding of prediction residual in MPEG-4standard for lossless audio coding ,acoustics ,speech and signal processing ,2004[C]//Proceedings(ICASSP 04)of IEEE Internaltional Conference. 2004,3:1024-1027.

[2]ROBINSON T. SHORTEN :Simple lossless and near-lossless

waveform compression ,Tech.Rep ,CUED/FINFENG/TR.156[R].Cambridge :UK Cambridge University ,1994.

[3]高文,黄铁军. 信源编码标准AVS 及其在数字电视中的应

用[J].电视技术,2003(11):4-6.

BGMC 编码的模式。

表1

编码器名称

编码平均压缩率

平均压缩率/%

32kHz/16bit 44.1kHz/16bit 96kHz/24bit

192kHz/24bit

50.7751.4452.2951.9552.2352.4953.3154.39

47.0247.9847.9548.0948.3248.6049.3850.64

47.1946.3747.9747.5749.0847.8951.6851.38

35.5735.2235.0135.5436.3135.9140.3346.03

Monkey EH AVS Lossless

TAK ALS (BGMC )Monkey Normal ALS FLAC WavPack

[4]黄铁军,高文. AVS 标准制定背景与知识产权状况[J].电视

技术,2005(7):4-7.

[5]王明伟. AVS 中的音视频编码压缩技术[J].电视技术,2006

(6):13-16.

[6]AVS 工作组. AVS lossless Committee Draft (CD )document

(N1738)[EB/OL].(2010-09-16)[2010-11-10].ftp ://159.226.

42.57. [7]

ASHLAND M T. Monkey ′s Audio compression program[EB/OL].(2003-02-10)[2010-11-02].saudio.com. [8]

BECKER T. TAK :(T )om ′s lossless (A )udio (K )ompressor. )[EB/OL].(2006-01-18)[2010-10-20].www.thbeck.de. [9]Xiph Org Foundation ,COALSON J. FLAC open source audio

compression[EB/OL].(2006-03-12)[2010-10-18].http ://www.xihp.org.

[10]BRYANT D. WavPack Audio Compression[EB/OL].(2005-03-10)[2010-10-25].http ://www.wavpack.com.[责任编辑]史丽丽

[收稿日期]2010-11-01

http ://www.monkey-

5

结论

AVS 无损音频编解码系统实现了从有损到无损

的伸缩编码方案,具有灵活、可扩展和高性能的特点。特别是在压缩效率方面,在编码条件相当的情况下,AVS 无损音频编解码器的压缩性能优于现行国际标准和多数流行无损编码产品。该系统算法复杂度低,易于在硬件平台实现,并且支持有损无损混合模式和独立无损编码模式,具有较好的灵活性,将是无损音频编码技术方面一种新的选择。该系统已经成为中国工业与信息化部“数字音视频编解码技术标准工作组”(AVS )的音

(上接第56页)

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

该音准指示仪的外观如图5所示。

[2]柏静,韦岗. 一种基于线性预测与自相关函数的语音基音

周期检测新算法[J].电声技术,2005(8):43-46.

[3]张永亮,李凌,张先庭. 基于折线削波电平的自相关函数法

检测基音[J].电声技术,2009,33(1):52-54.

[4]朱明武,李永新,卜雄洙. 测试信号处理[M].北京:北京航空

航天大学出版社,2006.

[5]赵晓群,王光艳. 汉语语音基音轨迹的形态学滤波和平滑

[J].信号处理,2003,19(4):354-357.

参考文献

[6]陈学煌. 复杂声音信号基频检测和处理的一种方法及实例

[J].应用声学,2007,26(6):341-346. [责任编辑]史丽丽

[收稿日期]2010-08-16

[1]鲍长春,樊昌信. 基于归一化互相关函数的基音检测算法

[J].通信学报,1998,19(10):27-30.

輪电声技术2010年第34卷第12期讂輲


相关文章

  • 多媒体应用设计师历年真题之多媒体知识点
  • 多媒体软件设计师之多媒体知识点 1. 数字化音频的质量取决于采样频率和量化位数,B 位二进制数字可以表示 2 个 不同的量化电平. 2. 人眼看到的任一彩色光都是亮度.色调和饱和度三个特性的综合效果,其中色调反映颜色的种类. 3. MPC与 ...查看


  • 数字媒体技术导论习题集
  • 第一章 数字媒体技术概论 一.填空题 1.对于媒体的含义,可以从_______和________两个范畴理解.传 递信息的载体.存储信息的实体 2.国际电信联盟定义了五种媒体,它们分别是_______._______. _______.__ ...查看


  • 多媒体题目
  • 1.12 1)多媒体计算机应包含哪些硬件设备:存储器,Cpu,CD-ROM.高校声音适配器.视频处理适配器 2)数据压缩技术主要应用于哪些方面:CD-ROM.VCD和DVD光盘 1.3.1 1)什么是多媒体技术:多媒体技术是利用计算机对文字 ...查看


  • 多媒体理论
  • ⼀一.多媒体技术 1.概念 多媒体是融合两种或两种以上媒体的⼈人-机互动的信息交流和传播的媒体. 多媒体技术⽤用于实时地综合处理声⾳音.⽂文字.图形.图像和视频等信息,是将这多种媒体信息⽤用计算机集成在⼀一起同时进⾏行综合处理,并把他们融合 ...查看


  • 摄像头视频采集压缩及传输原理
  • 摄像头视频采集压缩及传输原理 摄像头基本的功能还是视频传输,那么它是依靠怎样的原理来实现的呢?所谓视频传输:就是将图片一张张传到屏幕,由于传输速度很快,所以可以让大家看到连续动态的画面,就像放电影一样.一般当画面的传输数量达到每秒24帧时, ...查看


  • 视频会议基础知识.协议相关内容
  • 一.视频会议系统简介 1.视频会议系统概念 视频会议又称之为视讯会议.电视会议.会议电视.电视电话会议.视频会议系统是指通过视频会议专用设备和软件,借助通信链路来实现两个或两个以上不同地点之间,互相传输语音.视频和计算机资料,满足远距离即时 ...查看


  • 通用的压缩标准
  • 多媒体数据国际标准 (1) H.261 详细内容 由 CCITT (国标电报电话咨询委员会)通过的用于音视频服务的视频编码解码器,主要适用于视频电话和视频电视会议.它使用一帧中的有损压缩和用于帧间压缩的无损编码两种类型的压缩,并在此基础上使 ...查看


  • 多媒体技术与应用实验指导书(终稿)
  • 目录 实验一 了解多媒体知识以及软件工具 .................................................. 1 实验二 声音信号的获取与处理 ............................... ...查看


  • 演播室设计解决方案
  • 演播室设计解决方案 演播室设备选型 1 摄像机 SONY DSR-650WSP 1 2 三角架 云顿PRO-5 1 3 广角镜头 佳能20倍镜头 1 4 国产铝箱 1 5 两电一充 万迪来 1 6 摄象机(手持) DSR-PD190 1 7 ...查看


热门内容