MFCC在测试阶段从扬声器中提取的功能有哪些?
我知道如何计算mfcc步骤的方法是:
我将信号分成10到30毫秒的小帧
应用窗口函数(建议在声音应用程序中使用[sic])
计算信号的傅立叶变换
使用DFT计算Mel Frequecy倒谱系数:
获得功率谱:| DFT | ^ 2
计算三角形滤波器滤波器以将hz比例转换为mel scale
获取对数谱
应用离散cos变换
通过这些我得到系数。但我想知道这些系数如何与用户语音相关。这些系数代表什么?
答案 0 :(得分:1)
MFCC为您提供音频源中逐个频率的时间序列。来自" raw"的调整基于DFT的电源系列有两个基本用途:
1)从原始DFT到日志比例的线性比例(频率和功率)变化。这与人类(和大多数动物)听觉系统如何感知声音一致。
2)将大量数据压缩成较小的特征集,这仍然足以区分声音之间的重要感知差异。这种压缩在高频率下特别有用 - 对于大多数语音/ ASR应用,检测1001 Hz和999 Hz功率电平之间的差异几乎没有价值。
这些系数代表什么?
音频源的频率内容,与原始DFT相同,但经过调整以匹配人类感知的已知属性。在分析口语交流时,这些调整具有理论意义,我们的声音和听觉共同进化。