如何为CMU Sphinx构建大词汇量语言模型?

时间:2011-01-24 14:49:26

标签: speech-recognition cmusphinx

我想为CMU Sphinx构建一个语言模型,但我的语料库有超过1000个单词,因此我无法使用在线工具。我如何使用(cmuclmtk中的脚本?)来构建我的语言模型?

2 个答案:

答案 0 :(得分:6)

答案 1 :(得分:1)

不是一项微不足道的任务。生成语言模型是一项耗费时间和资源的任务。

如果你想拥有一个“好”的语言模型,你需要一个大的或非常大的文本语料库来训练一个语言模型(想想几年华尔街日记文本的数量级)。

“好”意味着:如果语言模型能够从训练数据推广到新的和以前看不见的输入数据

您应该查看Sphinx和HTK语言模型工具包的文档。

http://cmusphinx.sourceforge.net/wiki/tutoriallm

同时检查这两个主题:

Building openears compatible language model

Ruby Text Analysis

你可以采用更通用的语言模型,基于更大的语料库并用它来插入你的小语言模型......例如一个后退语言模型......但这不是一项微不足道的任务。

请参阅:Katz's back-off model