现代语音信号处理笔记 (三)

短时傅里叶分析

Posted by Pelhans on July 5, 2018

本节针对《现代语音信号处理》这本书的第四章,对应短时傅里叶分析部分。

时域分析

傅里叶分析是分析线性系统和平稳信号稳态特性的有力手段,这种以复指数函数为奇函数的正交变换在理论上完善并便于理解。通过傅里叶分析可使得信号的某些特性变得很明显。

在语音信号分析中,傅里叶分析一方面因为稳态语音的产生模型由线性系统组成,此语音系统被随时间做周期变化或随机变化的源所激励,因而系统输出的谱反映了激励谱与声道频率特性。另一方面,语音信号的频谱具有非常明显的声学意义们可以得到如共振频率、带宽等重要的语音特征。

由第二节可知,语音信号是非平稳过程,因此短时分析应用到傅里叶分析中就是短时傅里叶分析(STFT),相应的频谱为短时谱。广义上讲,语音信号的频域分析包括频谱、功率谱、倒谱、频谱包络分析等。常用的分析方法有傅里叶分析、带通滤波器组、LPC等。本节针对短时傅里叶分析。

短时傅里叶变换

语音信号是局部平稳的,因此可对一帧语音进行傅里叶变换,此时得到短时傅里叶变换,其定义为:

其中下表n用于区别与常规的傅里叶变换,w(n-m)是窗函数序列。可见,短时傅里叶变化是窗选语音信号的傅里叶变换。公式中有两个自变量n和w,因此它既是关于时间n的离散函数又是关于角频率w的连续函数。令$w = 2\pi k/N$,得到离散的短时傅里叶变换:

可以看做是$X_{n}(e^{jw})$在频域的取样。对其可以有两种理解:

  • 当n固定时,他们是序列w(n-m)x(m)的傅里叶变换。
  • 当w或k固定时,可看做时间n的函数,是信号序列和窗口函数的卷积,此时窗口相当于一个滤波器。

根据功率谱的定义,短时功率谱$S_{n}(e^{jw})$ 与短时傅里叶变换的关系为:

可以看出功率谱是短时自相关函数的傅里叶变换。

当信号和窗函数的傅里叶变换存在时,且n固定。根据频域卷积定理,将$X_{n}(e^{jw})$改写为:

其中W()和X_()对应于x(n)和w(n)的傅里叶变换。

另一方面还可从滤波器角度对短时傅里叶变换进行理解。只需要把公式改写一下:

因此可以将w(n)看做滤波器的单位函数响应。对应的实现框图如下图所示:

用滤波器实现短时傅里叶变换的主要优点在于,可利用线性滤波器的一些研究成果,从而使得实现非常简单。线性滤波器分为FIR和IIR、因果的和非因果的,类似的也可以将短时傅里叶变换分为有限宽度和无限宽度窗、因果窗和非因果窗等类型。 mg

窗口的选择

语音信号乘以窗函数时,窗口边缘两端不应急剧变化,波应缓慢降为0。因此窗函数应有如下特性:

  • 频率分辨率高,即主瓣狭窄尖锐。
  • 通过卷积,在其他频率上产生的频谱泄露少,即旁瓣衰减大。

另一方面,窗口宽度对傅里叶变换影响也很大,N值越大则$W(e^{jw})$的主瓣越窄,但N过大那分帧就失去了意义,尤其是当N大于因素长度时。因此应折中选择窗宽。

语谱图

语谱图是语音频谱分析视图。语谱图的横坐标是时间,纵坐标是频率,坐标点值为语音数据的能量。由于是采用二维平面表达三维信息,所以能量值的大小是通过颜色来表示的,颜色深,表示该点的语音能量越强。

在语音处理中采用不同的窗长同时得到两种语谱图,分别为宽带语谱图记忆窄带语谱图。前者具有高时间分辨率,后者具有高频率分辨率。

对于宽带语谱图的典型谱包括:

  • 宽横杠:表示元音的共振峰位置,即图中与垂直频率轴平行的较宽黑杠。
  • 垂直黑条:表示塞音或摩擦音,即图中与垂直频率轴平行的较窄的黑条。
  • 摩擦乱纹:代表摩擦音或送气音的送气部分,表现为无规则的乱纹。

对于窄带语谱图的典型谱包括:

  • 窄横条:代表元音的基频及各次谐波,表现为图中与水平轴平行的细线条。
  • 无声间隙段:对应语音停顿间隙,表现为空白区,在窄带和宽带语谱图中均存在。

下图为典型的窄带语谱图

Ref

现代语音信号处理[胡航 电子工业出版社] 第四章 短时傅里叶分析