在哪里可以找到有关ARPA语言模型格式的文档?
我正在使用pocket-sphinx STT引擎开发简单的语音识别应用程序。出于性能原因,建议使用ARPA。 我想了解我可以做多少来调整我的语言模型以满足我的自定义需求。
我发现的只是一些非常简短的ARPA格式描述:
我是STT的初学者,我很难绕过这个(n-gram等等)。我正在寻找更详细的文档。像这里的JSGF语法文档:
答案 0 :(得分:5)
我发现此链接很有用:http://www.speech.sri.com/projects/srilm/manpages/ngram-format.5.html
它描述了n-gram又称ARPA又名Doug Paul格式。
答案 1 :(得分:3)
实际上没有什么比这些文档更多的说法了。
此外,您可能希望准备一个带有示例句子和generate the language file based on it的文本文件。有一个在线版本可以为您完成:lmtool
答案 2 :(得分:3)
您可以使用此技术报告补充这些文档,该报告全面概述了语言建模的平滑度:http://www.ee.columbia.edu/~stanchen/papers/h015a-techreport.pdf 您还可以找到退避模型和插值模型的定义。
答案 3 :(得分:0)
我可能回答得太晚了,我发现Steve Young et的 The HTK Book 中的link中充分记录了ARPA LM格式。
ARPA的每一行都是存储以下内容的三元组:
n-gram log-probability(base10) ; the n-gram itself ; back-off weight (also in log space).