使用MFCC提取哪些功能或使用哪些参数来区分ASR系统中的用户?

时间:2015-03-10 08:58:02

标签: matlab mfcc

MFCC在测试阶段从扬声器中提取的功能有哪些?

我知道如何计算mfcc步骤的方法是:

  • 我将信号分成10到30毫秒的小帧

  • 应用窗口函数(建议在声音应用程序中使用[sic])

  • 计算信号的傅立叶变换

  • 使用DFT计算Mel Frequecy倒谱系数:

    • 获得功率谱:| DFT | ^ 2

    • 计算三角形滤波器滤波器以将hz比例转换为mel scale

    • 获取对数谱

    • 应用离散cos变换

通过这些我得到系数。但我想知道这些系数如何与用户语音相关。这些系数代表什么?

1 个答案:

答案 0 :(得分:1)

MFCC为您提供音频源中逐个频率的时间序列。来自" raw"的调整基于DFT的电源系列有两个基本用途:

1)从原始DFT到日志比例的线性比例(频率和功率)变化。这与人类(和大多数动物)听觉系统如何感知声音一致。

2)将大量数据压缩成较小的特征集,这仍然足以区分声音之间的重要感知差异。这种压缩在高频率下特别有用 - 对于大多数语音/ ASR应用,检测1001 Hz和999 Hz功率电平之间的差异几乎没有价值。

  

这些系数代表什么?

音频源的频率内容,与原始DFT相同,但经过调整以匹配人类感知的已知属性。在分析口语交流时,这些调整具有理论意义,我们的声音和听觉共同进化。