如何从cmusphinx上的字典中删除单词?

时间:2016-11-12 23:20:23

标签: voice-recognition cmusphinx

我正在尝试使用西班牙语的cmusphinx。我下载了西班牙语模型和词典,但准确性很差......

我试图删除“es.dict”中的所有单词,而不是我需要的单词。并且准确度变为100%(删除了99%的单词......)。

但是这种变化产生了另一个性能问题,我认为系统正试图读取文件“es-20k.lm”中的每个单词。

我的输出显示每个删除的单词: “nov 12,2016 11:05:14 PM edu.cmu.sphinx.linguist.dictionary.TextDictionary getWord INFORMACIÓN:字典缺少“argumento”一词的语音转录“

如何删除西班牙语模型中未使用的单词?有可能的? 我只想修改这个模型的字典,删除未使用的单词。 (此刻我只想要50个字。)。

我正在尝试文档中的建议工具,但我不理解它,或者我不知道它是怎么做的。

感谢。

1 个答案:

答案 0 :(得分:1)

你应该保持字典相同。您需要在文本编辑器中编写语法,或者根据language model tutorial的建议使用srilm构建语言模型。

总的来说,减少语言词汇量并不是提高准确性的唯一方法,通常不良准确性是由噪音,录音条件不匹配等因素引起的。你也需要处理它们。