语音识别笔记(二)

计算音系学

Posted by Pelhans on January 9, 2018

研究词是如何通过音子(phone)的单个语言单位发出声音的。

第三讲

基于语音的文字系统表明,口语词是由言语的最小单位组合而成的,这是作为我们所有的现代音系学理论的最基础的原始理论。音系学(phonology)是语言学的一个分支,它要系统地描述音子在不同的环境中的不同实现情况,并且研究语音系统是怎样与语法的其他部分相联系的。

言语语音与语音标音法

语音学是研究用于世界语言中的语音的科学,我们把词的发音模拟为表示音子(phone)和语段(segment)的符号串。在英语研究中,常用的两种不同的字母来描述音子。第一种是国际音标(International Phonetic Alphabet, IPA)。IPA 不仅是一个字母表,它还有一套标音的原则,随着不同标音的需要而不同。另一种语音字母表叫ARPAbet符号(shoup, 1980)。它是为了给美国英语标音而特别设计的。

发音

书中给出了很多关于人体发声结构的介绍,感兴趣的可以去看。。。总结为声带合在一起病发生振动时产生的语音称为浊音(voiced),当声带不振动时产生的语音称之为清音(unvoiced)。

语音可分为辅音(consonant)和元音(vowel)两大类。这两类语音都是空气通过口腔、咽腔或鼻腔时运动而产生的。辅音产生时要以某种方式限制和阻挡气流的运动,可以是清音或浊音。而元音在产生时受到的阻挡较小,一般是浊音,比较响亮,延续时间较长。

根据阻挡的部位的不同可以吧不同的辅音区别开来。最大阻挡形成的部位称为辅音的发音部位,辅音的发音部位包含唇音、齿音、齿龈音、上颚音、软腭音、喉音等。

辅音也可以通过气流的阻挡方式不同来区分,这样的特征称为发音方法。对于辅音来说其发音方法为: 塞音、鼻音、擦音、半元音、颤音。

类比于辅音,元音也可以通过发音部位来描述。元音有两个重要的参数:一个参数是发音时设为的高低,它大致相当于舌头最高部位所处的位置,另一个参数是发音时嘴唇的形状(圆唇或不圆唇),下图给出了不同元音的舌位。

除此之外还有不同的元音舌位高度的图示描述,称为元音舌位图。

声音波形

下图给出[iy]的声音波形,横轴表示时间,纵轴表示空气压力程度,大于0的部分表示空气压缩,小于0的部分表示空气的释放。通常来说,讲一个声音转化为数字文件包含两个步骤:取样和量化。

信号点的取样为对信号的振幅为在特定的时间点测量。因此取样率为每秒取样的次数,举例来说对于频率为20,000Hz的波形来说,要想保证波形的不遗失,其对应的最小采样频率应为10,000Hz,称之为Nyquist frequency。常用手机的采样率为8 KHZ,麦克风的采样率为16KHz。存储采用证书存储,如8-bit或16-bit等。

频率、振幅; 音高(Pitch)、响度

对于频率、振幅、响度的介绍就不多写了,这里主要介绍音高。音高的定义为感官神经对基音频率的感知。那什么是基音频率呢?其定义为声带的震动频率简记为F0,相应的周期为基音周期。我们可以通过音高追踪来画出F0的图。在下图中处于中间位置的就是F0。

另一个比较有用的定义为生意的强度,即dB。它的定义公式为:

前面提到音高是根据人的感觉定义的,但研究表明人类对于声音频率的感觉并不是线性的,一般来说当处于100Hz到1000Hz之间时的音高感觉是准确的、线性的。但对于那些在1000Hz以上的部分的准确度就会降低,频率与音高的关系为对数关系。对于此有很多不同的模型来描述这种关系,一种较为常用的是梅尔刻度(Mel Scale)。梅尔频率m与原始声音频率的关系为:

有关梅尔刻度的问题在后面的特征提取MFCC那还会继续介绍。

基音周期估计的现有方法

到目前为止,基音检测的方法大致上可以分为三类:

1)时域估计法,直接由语音波形来估计基音周期,常见的有:自相关法、并行处理法、平均幅度差法、数据减少法等;

2)变换法,它是一种将语音信号变换到频域或者时域来估计基音周期的方法,首先利用同态分析方法将声道的影响消除,得到属于激励部分的信息,然后求取基音周期,最常用的就是倒谱法,这种方法的缺点就是算法比较复杂,但是基音估计的效果却很好;

3)混合法,先提取信号声道模型参数,然后利用它对信号进行滤波,得到音源序列,最后再利用自相关法或者平均幅度差法求得基因音周期。

参考资料

[1] J+M 2nd Edition Chapter 7: Phonetics