现代语音信号处理笔记 (七)

语音特征参数估计

Posted by Pelhans on July 9, 2018

本节针对《现代语音信号处理》这本书的第八章,对应基音估计和共振峰估计两部分。

基音估计

基音是语音信号的重要参数,在语音产生的数字模型中,也是激励源的一个重要参数。在汉语中,基音的变化模式为声调,可以帮助区别意义。准确检测语音信号的基音周期对高质量的语音分析与合成、语音压缩编码、语音识别与说话人确认等有重要意义。虽然基音检测很重要,但迄今为止尚未找到一种完善的方法可适用不同讲话者、要求和环境。比如对低基音周期语音贫与方法叫好,高基音周期的时域方法较好。

基音检测方法大致分为三类:

  • 波形估计。直接由语音波形进行估计,分析波形上的周期峰值。其特点为简单,硬件实现容易。此外可定出峰值点位置,这在一些处理中很有用。这类方法包括并行处理法(PPROC)、数据减少法(DARD)。
  • 相关处理法。时域中周期信号的最明显特征是波形的类似性,因而可通过比较原始信号及为以后信号的相似性确定基音周期。如移位距离为基音周期,则良心好有最大的类似性(相关性最强)。大多数现有的基音检测都基于这一思想,最具代表性的是自相关函数法,这种方法在语音处理中广泛应用,因为抗波形相位失真强,且硬件结构简单。包括波形自相关法(MAUTO)、AMDF、SIFI。
  • 变换法。将语音信号变换到频域、倒谱域、小波域或高阶累积量域等进行估计。如倒谱法采用倒谱分析提取基音。倒谱分析算法较复杂,但基音估计效果较好。上述方法中,某些已针对不同系统得到应用。而新兴的基于小波分析及高阶累积量的基因检测方法取得了较好的结果。

自相关法

浊音信号自相关函数在基音周期的整数倍上出现峰值,而清音的自相关函数没有明显峰值。因而基音检测是否有峰值就可以判断是清音还是浊音,检测峰值位置就可以提取基音周期。但将自相关函数用于基音检测存在一些问题,影响从短时自相关函数中提取基音的准确性。其中最主要的是声道响应。短时自相关函数中保留的语音信号幅度太多,有很多峰值,其中许多由声道响应的阻尼震荡引起。当基音的周期性与共振峰的周期性混叠在一起时,被检测的峰值偏离原来的真实位置。主要问题是第一共振峰可能对基音造成干扰。在某些浊音中,第一共振峰频率可能等于或低于基频,如果其幅度很大,则可能在自相关函数产生一个峰值,可同基频的峰值相比拟。

由于以上原因,对语音信号进行预处理,以取出声道响应的影响及其他带来扰乱的特征。方法之一是非线性处理。语音信号的地幅度部分包含大量共振峰信息,而高幅度部分包含大量基因信息。因而任何削减或抑制语音地幅度部分的非线性处理都会使自相关函数性能得到改善。线性处理优势是可在时域用低成本硬件实现。常用的非线性处理包含削波法、立方幅度运算、进行谱平坦化以消除第一共振峰可能对基音检测造成的干扰,使得所有削波基本上有相同幅度,就像周期冲击串那样,这种技术又称谱平滑技术。

并行处理法

这是一种时域方法,在很多应用中都是成功的。这种检测器找出语音波形的6个测度,并用于6个独立的基音检测器。6个检测器驱动服从多数的逻辑电路,以进行基音的判决。其流程如下图所示。语音信号经过预处理后,形成一系列脉冲,以保留信号的周期性,而略去与基音检测无关的信息。然后由一些秉性监测器估计基音周期。最后对这些基音检测器的输出进行逻辑组合,得出估计值。

倒谱法

浊音的复倒谱存在峰值,出现的时间等于基音周期,而清音语音段的复倒谱不出现这种峰值,利用上述性质可进行清浊音判断,并估计浊音的基音周期。这种方法的要点是计算复倒谱后解卷,提取声门激励信息,在预期的基音周期附近寻找峰值。如果峰值超过设定门限则为浊音,峰的位置就是基音周期估值。否则为清音。

简化逆滤波法

简化逆滤波法跟踪是相关处理法进行基音提取的一种现代化版本,是检测基音的比较有效的方法。其先对语音波形降低取样率,进行LPC分析,抽取声道模型参数,再利用这些参数用LPC逆滤波器对原信号逆滤波,从预测误差中得到激励源序列,最后用自相关法求出基音周期。用逆滤波是因为其将频谱包络平坦化,得到LPC误差信号只包含激励信息,从而去除了声道影响,因而是一种简化的频谱平滑器。求出预测误差信号自相关函数后,就可提取出声门激励参数。通过与门限比较确定浊音,通过其他一些辅助信息还可以减少误差。

高阶累积量法

三阶高级累积量用于基音检测的原理与自相关法类似。首先将语音信号通过三电平中心削波器,计算三阶累积量。而后基于三阶累积量的基音检测所用的自相关函数。求得NACC的峰值位置,将这些峰值与门限进行比较,若低于门限则为清音,反之为浊音,且相邻峰值的时间差为基音周期。

共振峰估计

共振峰信息包含在语音信号谱包络中,谱包络峰值基本上对应于共振峰频率。因而共振峰估计均直接或间接地对品谱包络进行考察。其关键是估计语音包络,并认为谱包络最大值就是共振峰。

提取共振峰特性最简便的手段是语谱仪。随着技术的发展,用数字滤波器组可得到与模拟语谱图相近的功能。提取共振峰还有倒谱、LPC等更准确有效的方法。共振峰表现为语音信号谱包络峰值或声道模谱的峰值,因而从不同角度出发可得到不同的方法。

带通滤波器组法

该方法和语谱仪类似,但使用了计算机。滤波器中心蒲吕有两种分布方法,一种是等间距分布在频段上,另一种是非均匀分布,如Mel频率那种分布,在低端间距小,高端间距大,带宽也随之增加。这是滤波器的阶数需设计为与带宽成正比,是它们输出的群延时相同,不产生波形失真。

缺点是滤波器数目的限制使得估计的共振峰频率不可避免的存在误差,且对共振峰带宽不易确定。由于无法取出声门激励影响,可能造成虚假峰值。

DFT法

对一阵短时语音信号s(n)进行DFT可得其离散谱,即频域中有:

即信号频谱为声门激励与声道共同作用的结果,也就是品谱包络与频谱细微结构以乘积方式混合在一起。可对其进行FFT处理。

倒谱法

由上式可得信号倒谱:

其中S为信号短时谱,U相应于频谱细微结构,H相应于谱包络,浊音是,S是间隔频率为基频的离散线状谱。上式中右侧两项在倒谱域有较大差别。其中第一项为声门激励序列的倒谱,为以基音周期为周期的冲激序列,第二项是声道冲激响应序列的倒谱,集中于n=0附近的低倒谱域。因而可在倒谱域用一个滤波器消除声门激励的影响。再对倒谱进行DFT,得到声道模型的对数谱 $ln|H(k)|$,而求得的谱包络的平滑程度因使用倒滤波器的不同成分而变化。其原理流程如下图所示:

LPC法

用LPC法进行共振峰估计有两种方案。最直接的是对全极模型分母多项式A(z)进行因式分解,即用任意一种标准求复根的方法求出A(z)的跟,并由其确定共振峰,称之为求根法。另一种是进行LPC谱估计,LPC谱的特点是在信号谱峰值处匹配的很好,因而可以准确的求出共振峰参数。即求得语音谱包络后,搜索包络的局部极大值,用峰值检测器确定共振峰。

Ref

现代语音信号处理[胡航 电子工业出版社] 第八章 语音特征参数估计