我一直在运行Debian Squeeze的VM上安装Pocketsphinx0.7。这工作正常,我可以尝试识别文件中的语音。为此,我已经构建了一些python脚本,它们识别我得到的一堆文件,然后估计单词错误率。这些使用gstreamer,如this tutorial中所述。
到目前为止,我正在使用pocketphinx tarball中的原始hmm,这是一本字典,其中只包含我的测试数据中的单词和我从教授那里得到的优化语言模型。这应该工作,因为它也在生产系统中运行。我现在的问题是识别性能仍然很糟糕。我的单词错误(WER)率约为85%。
我想知道的是如何改善WER。我可以采取什么样的步骤?
另一件可能发生并可能影响性能的事情是,pocketphinx告诉我它没有权限访问嗯,尽管我让hmm可以读取,写入并执行每个人。
有没有人知道这可能来自哪里? 我很感激任何帮助。如果您需要更多信息,请告诉我。
修改
我创建了一个小型测试集并运行了pocketsphinx。 This is where you can find the files and the results.我被允许给予
你从原始测试集中的一些例子。你can find it here。
这是最糟糕的例子。 1-2个单词的简短发言效果很好。
抱歉,到目前为止,我无法创建一个大的测试集,我的时间非常有限。
答案 0 :(得分:2)
我想知道的是如何改善WER。我可以采取什么样的步骤?
Pocketsphinx常见问题解答中描述了这个问题:
http://cmusphinx.sourceforge.net/wiki/faq#qwhy_my_accuracy_is_poor
第一步是收集测试样本数据库
如果您需要帮助来提高准确性,则需要共享该数据库和您要查找的结果以及实际结果。您可以在这里或Sourceforge论坛上分享。您需要将所有文件打包到存档和某处上传。然后你可以给这里一个链接。
有关详细信息,请参阅