我想将所有n-gram文件转换为一个ARPA文件。它将用作语音识别的语言模型。
我有不同的n-gram文件,2克,3克和4克。以2克文件为例
two grams -- frequency
similar degree 32
Writing writes 1
towars their 3
country feature 1
like gold 446
like golf 64
我怎样才能做到这一点?
答案 0 :(得分:1)
在srilm包中,将计数转换为arpa的命令是:
ngram-count -read file.counts -lm file.lm
当这样做时,您只需要最大订单计数文件,因此不需要2克,因为从高阶计数重新计算低阶数。
Here你可以找到ngram-count的详细文档。