我一直与CMUsphinx合作,为土耳其语演讲文本几个月。我已经成功地在100小时的声音中运行了一列火车。我的目标是使用带有Sphinx3解码器的声学模型。但是Sphinx3解码器无法解码我的测试wav文件。然后我注意到sphinxtrain在训练结束时运行pocketsphinx_batch以测试模型。
所以,我开始研究poscketsphinx。我正处于pocketphinx批处理不能解码wav文件的位置(实际上它只产生ııı其他)但pocketphinx连续产生更多有意义的输出与相同的文件(例如15个单词中的10个正确的单词)。
我想我错过了一些配置步骤。我在此link中有一个压缩存档 其中包括我尝试解码的声学和语言模型,字典和wav文件。
我要求获得帮助,以便能够将我的模型与Sphinx3和Pocketsphinx_batch一起使用。
谢谢。
答案 0 :(得分:1)
幸运的是我发现了这个问题。它是由sphinx_fe产生的特征向量。我用默认值创建它们。在阅读了make_feats.pl和sphinxtrain.cfg文件后,我创建了与声学模型兼容的特征向量。 Sphinxtrain.cfg的lifter参数为22,但是如果我们使用sphinx_fe和默认值,则lifter为0,这意味着没有提升器。我创建了具有提升值22的mfc然后它工作了。