应用错误收集

时间：2019-11-04 17:37:00

标签： speech-recognition mfcc

在为音频信号的各个帧计算MFCC时，将MFCC的矩阵x时间帧数推广到信号的单个MFCC集是否明智？如果是，那是通过平均值吗？

我的意思是说，由MFCC矩阵封装的信息的准确性通过平均而失真/降低的程度，是否仍将给出可靠的答案？

答案 0 :(得分：0)

可以使用任何摘要统计信息，包括均值，标准差，偏斜，峰度等。还可以计算MFCC增量帧，然后也可以对这些帧进行摘要统计。对于简单的音频问题，这也许可以解决问题，但是由于这种转换会忽略时间模式，因此当然是限制性的。

丢失多少信息很大程度上取决于使用多长时间的窗口。在此时间段内有多少感兴趣的信号变化。这非常依赖于任务。

仅使用MFCC摘要，将摇滚乐与古典音乐分隔开就可以了。还是男性从女性讲话。但是识别句子中的单词的可能性很小。