MFCC可视化

浏览数：26 / 时间：2015年06月08日

大多数文章和博客介绍都是MFCC的算法流程，物理意义，这里只从数据分布可视化的角度，清晰观察MFCC特征在空间中的分布情况，加深理解。

MFCC处理流程：

MFCC參数的提取包含下面几个步骤：(选自百度百科)
1.预滤波：CODEC前端带宽为300-3400Hz的抗混叠滤波器。
2.A/D变换：8kHz的採样频率，12bit的线性量化精度。
3.预加重：通过一个一阶有限激励响应高通滤波器，使信号的频谱变得平坦，不易受到有限字长效应的影响。
4.分帧：依据语音的短时平稳特性，语音能够以帧为单位进行处理，实验中选取的语音帧长为32ms，帧叠为16ms。
5.加窗：採用哈明窗对一帧语音加窗，以减小吉布斯效应的影响。
6.高速傅立叶变换（Fast Fourier Transformation, FFT）：将时域信号变换成为信号的功率谱。
7.三角窗滤波：用一组Mel频标上线性分布的三角窗滤波器（共24个三角窗滤波器），对信号的功率谱滤波，每个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽，以此来模拟人耳的掩蔽效应。
8.求对数：三角窗滤波器组的输出求取对数，能够得到近似于同态变换的结果。
9.离散余弦变换（Discrete Cosine Transformation, DCT）：去除各维信号之间的相关性，将信号映射到低维空间。
10.谱加权：因为倒谱的低阶參数易受说话人特性、信道特性等的影响，而高阶參数的分辨能力比較低，所以须要进行谱加权，抑制其低阶和高阶參数。
11. 倒谱均值减（Cepstrum Mean Subtraction, CMS）：CMS能够有效地减小语音输入信道对特征參数的影响。
12.差分參数：大量实验表明，在语音特征中增加表征语音动态特性的差分參数，可以提高系统的识别性能。在本系统中，我们也用到了MFCC參数的一阶差分參数和二阶差分參数。
13.短时能量：语音的短时能量也是重要的特征參数，本系统中我们採用了语音的短时归一化对数能量及其一阶差分、二阶差分參数。