使用DTW设置处理MFFC中的异常值

时间:2013-04-24 09:43:18

标签: pattern-matching speech-recognition mfcc

我有一个小的命令识别系统,用户首先记录他的命令,然后系统尝试识别它们。前端的特征向量是MFCC的系数。后端使用DTW进行识别以对齐这些特征向量并输出得分(0->命令相等)。此设置的问题是区分命令(用户记录的命令)和其他字。选择最大分数作为识别命令的阈值不会产生良好的结果。我查看了LDA和PCA,目的是将记录的特征投影到不同的特征空间,在这些特征空间中它们可以更加分离。每个记录的命令都是一个类,它具有与该命令的帧相关联的前端的样本特征向量。由此我计算了LDA所需的变换,并将变换应用于每组得到的MFCC系数。这并没有给我记录命令和未记录命令之间的可分离性。

我的问题是:

  • 是将LDA应用于错误的方法吗?
  • 还有其他方法更适合我的设置(MFCC + DTW)吗?

非常感谢任何帮助或指导。

谢谢

1 个答案:

答案 0 :(得分:1)

  

此设置的问题是区分未记录的命令。

您可能希望更好地表达您希望将所查找的关键字与所有其他可能的字词分开。目前尚不清楚“未记录的”是什么意思

  

是将LDA应用于错误的方法吗?

没错,没有意义。 PCA优化了不同的性质,绝不会改善分离。

  

选择最高分数作为识别命令的阈值不会产生良好的效果。

这种方法不是最好的方法,但应该相对较好。它经过多年的证明。你可能只是在它的实现或测试中犯了一个错误,或者还有其他一些bug。我建议你重温一下。

您唯一需要知道的是阈值必须依赖于模板关键字。因此,对于不同的模板关键字,阈值必须不同。单个阈值不起作用。