使用我自己的字典创建CMUSphinx语言模型后的下一个步骤是什么?

时间:2015-12-28 23:34:17

标签: java dictionary cmusphinx language-model

我已经为阿拉伯语创建了我自己的CMUSphinx语言模型,该软件将用于监听用户并使用我自己的字典应用命令,我手动手动完成,将“arpa”语言模型类型转换为“ dmp“使用命令sphinx_lm_convert -i ar.lm -o ar.lm.dmp的语言模型,所以这是我到目前为止的文件:

  • .txt(命令文本文件)
  • .wfreq(单词文件的频率)
  • .idngram(ngram文件)
  • .dic(字典文件)
  • .phone(音素文件)
  • .lm(arpa语言模型文件)
  • .lm.dmp(Darpa Trigram转储语言模型文件)

然后我记录了我自己说的每个单词,每个单词都有一个自己的.wav文件,它们都在一个文件夹中,该文件夹与.dic,.txt,.lm存在的文件夹分开。

我的问题是我在这里阅读的下一步是什么http://cmusphinx.sourceforge.net/wiki/tutorial

它说,在构建语言模型之后,适应现有声学模型是下一步,是不是在训练语言模型?

如果是训练,我需要除了以下所需的所有文件:

  • .transcription
  • .fileids

这两个文件应该包含什么内容?

感谢

1 个答案:

答案 0 :(得分:1)

tutorial for Acoustic Model Training中描述了训练声学模型的程序。

如果要将任何自定义表单中的现有转录转换为所需格式,您需要在文本编辑器或脚本中手动创建文件和转录文件。

Fileids必须列出文件名,转录文件必须以特殊格式列出每个文件的转录。

例如声学模型训练数据库,您可以在an4数据库中查看。