MFCC特征

MFCC概述

在语音识别(SpeechRecognition)和话者识别(SpeakerRecognition)方面,最常用到的语音特征就是==梅尔倒谱系数==(Mel-scaleFrequency Cepstral Coefficients,简称MFCC)。

根据人耳听觉机理的研究发现,人耳对不同频率的声波有不同的听觉敏感度。从200Hz到5000Hz的语音信号对语音的清晰度影响对大。两个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象称为掩蔽效应。由于频率较低的声音在内耳蜗基底膜上行波传递的距离(速度)大于频率较高的声音,故一般来说,低音容易掩蔽高音,而高音掩蔽低音较困难。在低频处的声音掩蔽的临界带宽较高频要小。所以,人们从低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器,对输入信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征,对此特征经过进一步处理后就可以作为语音的输入特征。由于这种特征不依赖于信号的性质,对输入信号不做任何的假设和限制,又利用了听觉模型的研究成果。因此,这种参数比基于声道模型的LPCC相比具有更好的鲁邦性,更符合人耳的听觉特性,而且当信噪比降低时仍然具有较好的识别性能。

MFCC是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性,它与频率的关系可用下式近似表示:

\[Mel(f)=2585 \times log(1+\frac{f}{700})\]

其中 f 为频率,单位Hz。下图展示了Mel频率与线性频率之间的关系: Img

MFCC提取过程

基本流程:

$连续语音 \rightarrow 预加重 \rightarrow 分帧 \rightarrow 加窗 \rightarrow FFT \rightarrow Mel滤波器组 \rightarrow 对数运算 \rightarrow DCT$

连续语音

我们这里截取了3.5s的原始声音数据 Img

预加重

预加重处理其实是将语音信号通过一个高通滤波器: \(H(z)=1-\mu z^{-1}\) 其中 $\mu=0.9~1$ ,我们通常取为0.97。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,也是为了消除发生过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰。 \(y(t)=x(t)-\alpha x(t-1)\) Img

分帧

先将N个采样点集合成一个观测单位,称为帧。通常情况下N的值为256或512,涵盖的时间约为20~30ms左右。为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,通常M的值约为N的1/2或1/3。通常语音识别所采用语音信号的采样频率为8KHz或16KHz,以8KHz来说,若帧长度为256个采样点,则对应的时间长度是256/8000 1000=32ms。

预加重后,我们需要将信号分成短时帧。这一步背后的基本原理是信号中的频率随时间而变化,所以在大多数情况下,对整个信号进行傅立叶变换是没有意义的,因为我们会随着时间的推移丢失信号的频率轮廓。为了避免这种情况,我们可以安全地假设信号中的频率在很短的时间内是平稳的。因此,通过在这个短时间帧内进行傅里叶变换,我们可以通过连接相邻帧来获得信号的频率轮廓的良好近似。

语音处理范围内的典型帧大小范围为20毫秒到40毫秒

连续帧之间重叠50%(+/- 10%)

流行设置25毫秒的帧大小

frame_size = 0.025和10毫秒的步幅(15毫秒重叠)

frame_stride = 0.01。 Img

加窗

将每一帧乘以汉明窗,以增加帧左端和右端的连续性。假设分帧后的信号为S(n), n=0,1,…,N-1, N为帧的大小,那么乘上汉明窗后,W(n) 形式如下: \(S^{'}(n)=S(n) \times W(n)\)

\(W(n,a)=(1-a)-a \times cos(\frac{2 \pi n}{N-1}), 0\leq n \leq N-1\) 不同的 a 值会产生不同的汉明窗,一般情况下取为0.46。

在将信号切分为帧后,我们将一个窗口函数(如Hamming窗口)应用于每个帧。有几个原因需要对窗框应用窗函数,特别是为了抵消FFT所假设的数据是无限的,并减少频谱泄漏。 Img

快速傅里叶变换 FFT

由于信号在时域上的变换通常很难看出信号的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。所以在乘上汉明窗后,每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。设语音信号的DFT为: \(X_a(k)=\sum_{n=0}^{N-1}{x(n)e^{-2 \pi i k/N}} , 0 \leq k \leq N\) 式中 $x(n)$ 为输入的语音信号, $N$ 表示傅里叶变换的点数。

三角带通滤波器 (Mel滤波)

将能量谱通过一组Mel尺度的三角形滤波器组,定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近),采用的滤波器为三角滤波器,中心频率为 。M通常取22-26。各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽,如图所示 Img

三角滤波器的频率响应定义为: \(\begin{equation} \begin{aligned} H_m(k)=\left\{ \begin{array}{lr} &0, & & {k<f(m-1)} \\ &\frac{2(k-f(m-1))}{(f(m+1)-f(m-1))(f(m)-f(m-1))}, & &{f(m-1)<k<f(m)} \\ &\frac{2(f(m+1)-k)}{(f(m+1)-f(m-1))(f(m)-f(m-1))},& &{f(m)<k<f(m+1)} \\ &0, & &k>f(m+1) \end{array} \right. \end{aligned} \end{equation}\) 式中, $\sum_{m=0}^{M-1}{H_m(k)} = 1$ 三角带通滤波器有两个主要目的:对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰。(因此一段语音的音调或音高,是不会呈现在MFCC 参数内,换句话说,以MFCC 为特征的语音辨识系统,并不会受到输入语音的音调不同而有所影响)此外,还可以降低运算量。

计算每个滤波器组输出的对数能量为

\[s(m)=ln\left( \sum_{k=0}^{N-1}{|X_a(k)|^2 H_m(k)} \right) , 0\leq m \leq M\]

经离散余弦变换(DCT)得到MFCC系数

\(C(n)=\sum_{m=0}^{N-1}{s(m)cos\left( \frac{\pi n(m-0.5)}{M} \right)} , n=1,2,...,L\) 将上述的对数能量带入离散余弦变换,求出L阶的Mel-scale Cepstrum参数。L阶指MFCC系数阶数,通常取12-16。这里M是三角滤波器个数。

事实证明,前一步计算出的滤波器组系数高度相关,这在某些机器学习算法中可能存在问题。因此,我们可以应用离散余弦变换(DCT)去相关滤波器组系数并产生滤波器组的压缩表示。通常,对于自动语音识别(ASR),所得到的倒谱系数2-13被保留,其余的被丢弃; num_ceps = 12。丢弃其他系数的原因是它们表示滤波器组系数的快速变化,并且这些细节不会有助于自动语音识别(ASR)。

可以将正弦升降1应用于MFCC以降低已被声称在噪声信号中改善语音识别的较高MFCC.

如前所述,为了平衡频谱并改善信噪比(SNR),我们可以简单地从所有帧中减去每个系数的平均值。对于MFCC也是如此,平均归一化MFCC。

对数能量

此外,一帧的音量(即能量),也是语音的重要特征,而且非常容易计算。因此,通常再加上一帧的对数能量(定义:一帧内信号的平方和,再取以10为底的对数值,再乘以10)使得每一帧基本的语音特征就多了一维,包括一个对数能量和剩下的倒频谱参数。 注:若要加入其它语音特征以测试识别率,也可以在此阶段加入,这些常用的其它语音特征包含音高、过零率以及共振峰等。

动态查分参数的提取(包括一阶差分和二阶差分)

标准的倒谱参数MFCC只反映了语音参数的静态特性,语音的动态特性可以用这些静态特征的差分谱来描述。实验证明:把动、静态特征结合起来才能有效提高系统的识别性能。差分参数的计算可以采用下面的公式: \(f(x)=\left\{ \begin{aligned} &C(t+1)-C(t),& &t<K \\ &\frac{\sum_{k=1}^{K}{k(c_{t+k}-c_{t-k})}}{\sqrt{2\sum_{k=1}^{K}{k^2}}} ,& &Others \\ &C(t1)-C(t-1), & &t \geq Q-K \end{aligned} \right.\) 式中,dt表示第t个一阶差分;Ct表示第t个倒谱系数;Q表示倒谱系数的阶数;K表示一阶导数的时间差,可取1或2。将上式中结果再代入就可以得到二阶差分的参数。

总结

因此,MFCC的全部组成其实是由:N维MFCC参数(N/3MFCC系数+ N/3一阶差分参数+ N/3二阶差分参数)+帧能量(此项可根据需求替换)。