应用错误收集

MFCC在测试阶段从扬声器中提取的功能有哪些？

我知道如何计算mfcc步骤的方法是：

我将信号分成10到30毫秒的小帧
应用窗口函数（建议在声音应用程序中使用[sic]）
计算信号的傅立叶变换
使用DFT计算Mel Frequecy倒谱系数：
- 获得功率谱：| DFT | ^ 2
- 计算三角形滤波器滤波器以将hz比例转换为mel scale
- 获取对数谱
- 应用离散cos变换

通过这些我得到系数。但我想知道这些系数如何与用户语音相关。这些系数代表什么？

MFCC为您提供音频源中逐个频率的时间序列。来自＆＃34; raw＆＃34;的调整基于DFT的电源系列有两个基本用途：

1）从原始DFT到日志比例的线性比例（频率和功率）变化。这与人类（和大多数动物）听觉系统如何感知声音一致。

2）将大量数据压缩成较小的特征集，这仍然足以区分声音之间的重要感知差异。这种压缩在高频率下特别有用 - 对于大多数语音/ ASR应用，检测1001 Hz和999 Hz功率电平之间的差异几乎没有价值。

这些系数代表什么？

音频源的频率内容，与原始DFT相同，但经过调整以匹配人类感知的已知属性。在分析口语交流时，这些调整具有理论意义，我们的声音和听觉共同进化。