在为音频信号的各个帧计算MFCC时,将MFCC的矩阵x时间帧数推广到信号的单个MFCC集是否明智?如果是,那是通过平均值吗?
我的意思是说,由MFCC矩阵封装的信息的准确性通过平均而失真/降低的程度,是否仍将给出可靠的答案?
答案 0 :(得分:0)
可以使用任何摘要统计信息,包括均值,标准差,偏斜,峰度等。还可以计算MFCC增量帧,然后也可以对这些帧进行摘要统计。对于简单的音频问题,这也许可以解决问题,但是由于这种转换会忽略时间模式,因此当然是限制性的。
丢失多少信息很大程度上取决于使用多长时间的窗口。在此时间段内有多少感兴趣的信号变化。这非常依赖于任务。
仅使用MFCC摘要,将摇滚乐与古典音乐分隔开就可以了。还是男性从女性讲话。但是识别句子中的单词的可能性很小。