应用错误收集

如何为CMU Sphinx构建大词汇量语言模型？

时间：2011-01-24 14:49:26

标签： speech-recognition cmusphinx

我想为CMU Sphinx构建一个语言模型，但我的语料库有超过1000个单词，因此我无法使用在线工具。我如何使用（cmuclmtk中的脚本？）来构建我的语言模型？

2 个答案:

答案 0 :(得分：6)

请阅读教程

http://cmusphinx.sourceforge.net/wiki/tutoriallm

答案 1 :(得分：1)

不是一项微不足道的任务。生成语言模型是一项耗费时间和资源的任务。

如果你想拥有一个“好”的语言模型，你需要一个大的或非常大的文本语料库来训练一个语言模型（想想几年华尔街日记文本的数量级）。

“好”意味着：如果语言模型能够从训练数据推广到新的和以前看不见的输入数据

您应该查看Sphinx和HTK语言模型工具包的文档。

http://cmusphinx.sourceforge.net/wiki/tutoriallm

同时检查这两个主题：

Building openears compatible language model

Ruby Text Analysis

你可以采用更通用的语言模型，基于更大的语料库并用它来插入你的小语言模型......例如一个后退语言模型......但这不是一项微不足道的任务。

请参阅：Katz's back-off model