音频器件/扬声器 |
|
| 按行业筛选 |
|
|
| 按产品筛选 |
|
|
| |
查看本类全部文章 |
| |
|
|
|
我国自主知识产权的音频压缩技术--DRA |
|
作者:数维科技(北京)有限公司 |
|
1.概述
数字音频编码起源于上世纪七十年代早期,初期大多借鉴在语音压缩编码方面所积累的理论和技术。随着快速余弦变换、子带分解、TDAC(Time-domain alias cancellation)等技术的发展,于上世纪八十年代逐渐成熟。
音频压缩技术指的是对原始数字音频信号流(PCM编码)运用适当的数字信号处理技术,在不损失有用信息量,或所引入损失可忽略的条件下,降低(压缩)其码率,也称为压缩编码。由于数字信号对存储容量和传输时信道容量要求的增加,因此直接采用PCM码流进行存储和传输存在非常大的冗余度,为利用有限的资源,压缩技术从一出现便受到广泛的重视。
音频压缩技术分为无损压缩及有损压缩两大类。按照压缩方案的不同,又可将其划分为时域压缩、变换压缩、子带压缩,以及多种技术相互融合的混合压缩等。各种不同的压缩技术,其算法的复杂程度(包括时间复杂度和空间复杂度)、音频质量、算法效率(即压缩比例),以及编解码延时等都有很大的不同。各种压缩技术的应用场合也因之而各不相同。
时域压缩(或称波形编码)技术是直接针对音频PCM码流的样值进行处理。此类压缩技术一般多用于语音压缩,低码率应用(源信号带宽小)的场合,主要包括 G.711、ADPCM、LPC、CELP等。
目前国际上主流音频压缩算法所采用的基本理论框架如图1所示,该结构成为有损音频压缩的最佳选择已经成为业界共识。
图1 音频压缩算法基本框图 子带压缩技术和变换压缩技术属于频域压缩技术。根据人对声音信号的感知模型(心理声学模型),通过对信号频谱的分析来决定子带样值或频域样值的量化阶数和其它参数选择的,因此又可称为感知压缩编码。音频压缩的基本理论框架在具体实施时,可依其时频分析的分辨率的高低分为两条技术路线:变换编码(高频率分辨率)和子带编码(低频率分辨率)。MPEG 1和MPEG 2的Layer 1和2,以及DTS的Coherent Acoustics是采用子带编码的较为成功的算法。Dolby AC-3以及MPEG 2 AAC为采用变换编码的最具影响力的算法。频域压缩算法相对时域压缩技术而言要复杂得多,同时编码效率、声音质量也大幅提高。
数字音视频技术中,最核心的是音视频的压缩编码算法和标准。目前,在这一领域我国主要采用由国外大公司和组织制定的标准,如:杜比AC-3、DTS(Digital Theatre System,数字化影院系统)、MPEG-2(MPEG:Motion Picture Experts Group,运动图象专家组)、H.264,使用这些标准我们需要向国外相关专利池缴付大量专利费,据专家计算,如果未来在国内全面采用这些标准,今后10年累计我国可能会被收取高达2300亿元的专利使用费,这将直接制约我国数字音视频产业的发展。考虑到自主知识产权的重要性,积极制定我国自主的数字音视频编解码标准成为了国内业界的共识。
2007年1月4日国家信息产业部正式批准具有自主知识产权的《多声道数字音频编解码技术规范》成为电子行业标准(标准号:SJ/T11368-2006,实施日期为2007年1月1日,以下简称DRA音频标准),该标准由广东省广晟资产经营有限公司属下的广州广晟数码技术有限公司自主研发,并经电子行业标准管理部门审核编制而成的。至此,我国目前唯一完全独立自主知识产权的音频编解码技术标准诞生。
DRA音频标准支持立体声和多声道环绕声的数字音频编解码,它的最大特点是用很低的解码复杂度实现了国际先进水平的压缩效率。由于DRA技术编解码过程的所有信号通道均有24比特的精度容量,故在码率充足时能提供超出人耳听觉能力的音质。DRA算法参数指标如表1所示: 2.DRA音频编解码算法
DRA音频压缩算法基于人耳的听觉特性对声音信号进行量化和比特分配,属于感知音频编码,采用了变换编码的路线。DRA算法采用了全新的自适应时频分块技术,可从十多个窗口长度中选择一个最适合当前音频信号特征的窗口,以实现对音频信号的最优分解。DRA算法实现了量化与熵编码独立优化,进一步提高了量化与熵编码的性能。DRA算法还采用了基于人耳听觉模型的自适应分块标量量化,并对量化指数进行了Huffman编码。算法中最鲜明的技术特色在于可变分辨率滤波器组和熵编码两个模块。图2和图3分别给出了DRA音频算法的编码和解码框图。
注:实线代表音频数据,虚线代表控制/辅助信息。
图2 编码器框图
注:实线代表音频数据,虚线代表控制/辅助信息。
图3 解码器框图 2.1 可变分辨率滤波器组
音频信号通常由准稳态的声音片断组成,这些声音片断被突变的瞬态信号间插分隔。因此,音频编码算法需要使用一个可根据音频信号的分段平稳特性来调整时频分辨率的滤波器组,该滤波器组对于准稳态的声音片断具有高的频域分辨率,而对瞬态信号具有高的时域分辨率。传统的音频编解码算法在处理这个问题时往往采取一种折衷的方法,但是折衷的效果对于稳态信号和瞬态信号都不是最优的。
DRA算法在处理这个问题时采取了改进的方法,该方法对音频帧中瞬态信号的发生及其准确位置进行分析,针对音频信号的动态特征对稳态信号和瞬态信号分别进行处理,并通过引入新的“短/暂窗口函数”进一步提高对瞬态信号的时域分辨率。该方法对于稳态信号采用了高的频域分辨率滤波器组,使变换后的子带样本能量更加集中,有利于量化和熵编码;而对于瞬态信号则提供了精细的时域分辨率,从而保留了足够的对听觉有效的信息。
在DRA中滤波器组采用经典的MDCT算法来实现,其正向(分析滤波器)变换公式为: 合成滤波器(逆)MDCT变换公式为: 其中M=1024(长块)或128(短块和瞬态块),w(n)为窗函数。
对于长窗和短窗 对于瞬态窗 另外还定义了各种窗型间的过渡窗[1]。图4为可变分辨率的滤波器组的窗函数示意图,注意当前窗的窗型确定是根据当前音频信号以及其前后窗型,括号内说明了当前窗的前一个和后一个窗类型。图5给出对一段实际时域波形的各种窗型具体应用例子,可以看到在瞬态帧的第5个短块明显存在一个时域突变信号,因此采用最佳窗型-瞬态窗处理,以获得最佳编码效果。
图4 可变分辨率的合成滤波器组的窗口函数
图5 各种窗型的具体应用 2.2多声道编码技术
在DRA中,有两种立体声对的编码方法,和差编码和强度立体声编码。
和差立体声编码的基本原理是一对声道间存在着统计相关性,可以通过去除这种声道间相关来进一步降低码率,这种编码属于无失真压缩过程,DRA中采用了一种简单的和差解码其公式为: 强度立体声编码的基本原理是:人耳心理听觉模型表明,人耳在高频对空间声像的感知更多地是由左右音频信号的相对强度,更少地由其各自的频率细节成分决定。因此可以参与强度立体声编码的多个声道,仅仅传输一个组合声道的高频细节,并传输各个参与编码声道的高频包络,来实现听觉无失真压缩的效果。在DRA编码算法中强度立体声编码源声道的高频信息是通过对参与强度立体声编码的几个声道高频信息的组合处理获得,包络信息是以比例因子方式从码流中获得,从而各个声道的解码为:
重建声道的高频部分=重建声道的比例因子×源声道的高频部分
2.3 比特分配及熵编码
与同类音频编码器[2]类似,DRA也采用心理声学模型输出的每个量化单元掩蔽阈值在给定的比特率下分配量化噪音,使量化噪音尽可能的被遮蔽住而不被感知。量化器的输出包括两个部分,量化步长和量化指数。
在对量化指数的熵编码中,DRA采用了创新的码书选择方案。与其它同类编码器不同,DRA算法进行量化指数的熵编码时,在码书选择阶段完全忽略了量化单元的存在,而是根据每个量化指数的特性分配最优的码书指数,然后合并码书指数形成较大的段,共享一个码书指数。
DRA的这种基于量化指数本身特性的码书选择方案相对于传统的以量化单元为基本单位的码书选择方案(如Advanced Audio Coding)具有如下优势:传统的以量化单元的为码书选择基本单元的的码书选择方案是基于这样的假设:即每个量化单元内的量化指数具有类似的统计特性,因而可以采用相同的码书。然而这个假设并不一定成立。
DRA在这里直接根据量化指数的统计特性选择最佳的码书指数,同时对码书指数进行合并,以尽量少的比特数传递码书指数选择信息,码书选择如图6所示。
图6 量化单元与码书段选择 3 DRA算法复杂度分析
通过以上分析DRA算法的编解码器结构,可以看出DRA算法的编解码器结构更有利于广播等便携应用下降低终端设备中解码端的复杂度,从而降低功耗和成本等。当前DRA解码算法已经用于我国广电CMMB标准接收机中,在ARM处理器和在ADI的ADI-BF53x的DSP芯片上约40多MIPS便可实现128kbps立体声实时解码。
4 DRA主观测试
根据ITU-R BS.1116小损伤声音主观测试标准,采用双盲三激励隐藏基准5级评价方法对DRA编码算法进行了严格测试,测试主要条件包括:测试环境为国家数字电视系统测试实验室音视频主观评价室;测试人员为41个有听音测试经验的人员(包括专家组和专业组);环绕声测试序列包括4个国际标准测试片段和2个商业片段,立体声测试序列主要由国际标准测试序列组成。DRA在384kbps码率下5.1声道获得4.9分;128kbps码率立体声获得4.7分。同时测试结果也表明:DRA技术在每声道64kbps的码率时即“达到了EBU(欧洲广播联盟)定义的‘不能识别损伤’的音频质量”。
5.结论
本文介绍了数字音频编码技术的发展情况,比较DRA与当今国际标准编码算法的技术参数;详细分析了DRA音频编码算法的关键技术;并且简单给出了DRA算法的复杂度分析以及主观评价结果。可以看到,DRA数字音频编码算法用很低的解码复杂度实现了国际先进水平的压缩效率,并以其独特的技术特色和优质的声音质量填补了我国数字音视频产业核心技术的空白,从而对于参与国际标准的竞争和推动我国音视频产业的发展起到了积极的作用。
参考文献:
[1] SJ/T 11368-2006 《多声道数字音频编解码技术规范》
[2] ISO/IEC 13818-7 Information technology - Generic coding of moving pictures and associated audio information - Part 7: Advanced Audio Coding (AAC)(end)
|
|
文章内容仅供参考
(投稿)
(如果您是本文作者,请点击此处)
(8/6/2008) |
对 音频器件/扬声器 有何见解?请到 音频器件/扬声器论坛 畅所欲言吧!
|