我正在尝试使用以下命令生成arpa格式语言模型:
text2wngram < weather.txt | grep -v "</s> <s>" > weather.wngram
wngram2idngram -vocab weather.vocab < weather.wngram > weather.idngram
idngram2lm -vocab_type 0 -idngram weather.idngram -vocab weather.vocab -arpa weather.lm
但第二个命令 wngram2idngram 无效并抛出以下错误:
text2idngram:错误:必须指定idngram文件。
我按如下方式更改参数,它可以正常工作。
wngram2idngram -vocab weather.vocab -idngram weather.idngram < weather.wngram
我的问题是哪一个是正确的? 我正在使用cmulmtk第3版。
答案 0 :(得分:1)
第二种变体是正确的。
同时,我们建议使用SRILM。