我正在尝试使用MFCC,它们的增量和delta-delta构建语音的基本情感检测器。许多论文都谈到了通过训练GMM来获得这些特征的准确性。
我似乎无法找到一个现成的包来做同样的事情。我在Python,Voicebox和Matlab和Rmixmod中的类似工具包,stochmod,mclust,mixtools以及R中的其他一些软件包中使用了scilearn。在训练数据中计算GMM的最佳库是什么?
答案 0 :(得分:2)
具有挑战性的问题是训练数据,其中包含嵌入在特征集中的情感信息。在测试信号中应使用封装情感的相同功能。使用GMM进行的测试只会作为您的通用背景模型。根据我通常使用GMM的经验,您只能将男性女性和一些独特的扬声器分开。简单地将MFCC喂入GMM是不够的,因为GMM不保留随时间变化的信息。由于情绪语音除了频率变化MFCC参数之外还包含时间变化参数,例如音调和音调随时段的变化。我并不是说目前的技术水平不可能,而是以一种好的方式挑战。
答案 1 :(得分:0)
如果你想使用Python,这里是着名的语音识别工具包Sphinx中的代码。
http://sourceforge.net/p/cmusphinx/code/HEAD/tree/trunk/sphinxtrain/python/cmusphinx/gmm.py