MFCC可视化

大多数文章和博客介绍都是MFCC的算法流程,物理意义,这里只从数据分布可视化的角度,清晰观察MFCC特征在空间中的分布情况,加深理解。

MFCC处理流程:

MFCC參数的提取包含下面几个步骤:(选自百度百科) 
                1.预滤波:CODEC前端带宽为300-3400Hz的抗混叠滤波器。 
2.A/D变换:8kHz的採样频率,12bit的线性量化精度。 
3.预加重:通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响。 
4.分帧:依据语音的短时平稳特性,语音能够以帧为单位进行处理,实验中选取的语音帧长为32ms,帧叠为16ms。
5.加窗:採用哈明窗对一帧语音加窗,以减小吉布斯效应的影响。 
6.高速傅立叶变换(Fast Fourier Transformation, FFT):将时域信号变换成为信号的功率谱。 
7.三角窗滤波:用一组Mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器),对信号的功率谱滤波,每个三角窗    滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应。 
8.求对数:三角窗滤波器组的输出求取对数,能够得到近似于同态变换的结果。 
9.离散余弦变换(Discrete Cosine Transformation, DCT):去除各维信号之间的相关性,将信号映射到低维空间。 
10.谱加权:因为倒谱的低阶參数易受说话人特性、信道特性等的影响,而高阶參数的分辨能力比較低,所以须要进行谱加      权,抑制其低阶和高阶參数。 
11. 倒谱均值减(Cepstrum Mean Subtraction, CMS):CMS能够有效地减小语音输入信道对特征參数的影响。 
12.差分參数:大量实验表明,在语音特征中增加表征语音动态特性的差分參数,可以提高系统的识别性能。在本系统中,       我们也用到了MFCC參数的一阶差分參数和二阶差分參数。 
13.短时能量:语音的短时能量也是重要的特征參数,本系统中我们採用了语音的短时归一化对数能量及其一阶差分、二阶      差分參数。 

图形可视化:

技术分享

郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。