我想知道为了获得一个良好的域语言模型并在语音识别工具(如CMU Sphinx)中使用它需要处理多少文档,句子或单词。
答案 0 :(得分:2)
要为小域创建一个不错的语言模型,通常就足以拥有大约100 MB的文本。您可以将它们与通用语言模型混合使用,以更好地概括语言模型。
要创建通用语言模型,开发人员使用非常大的语料库。例如,有一个Google 1TB语料库,其中包含数百万个单词和数TB的数据。它的三元组部分是大约40Gb的二元组计数,但它必须是一百兆字节的文本。
答案 1 :(得分:0)
加入尼古拉的回答:
这不是一项微不足道的任务。生成语言模型是一项耗费时间和资源的任务。
如果你想拥有一个“好”的语言模型,你需要一个大的或非常大的文本语料库来训练一个语言模型(想想几年华尔街日记文本的数量级)。
“好”意味着:如果语言模型能够从训练数据推广到新的和以前看不见的输入数据
您应该查看Sphinx和HTK语言模型工具包的文档。
请检查以下两个主题:
Building openears compatible language model
你可以采用更通用的语言模型,基于更大的语料库并用它来插入你的小语言模型......例如一个后退语言模型......但这不是一项微不足道的任务。
请参阅:http://en.wikipedia.org/wiki/Katz's_back-off_model