我正在使用摩西制作语言模型。
我按照此链接中的说明操作:Baseline System: Moses
我有google 1-gram文件,如下所示:
</S> 95119665584
<S> 95119665584
, 30578667846
. 22077031422
<UNK> 21594821357
the 19401194714
- 16337125274
of 12765289150
and 12522922536
这意味着“of”这个词出现了12,765,289,150次。
现在我想从这个文件(“构建语言模型”)中创建一个语言模型,
我不知道这种文件格式是否适用于摩西。
在教程中,他们正在使用“europarl-v6.en”,但我无法在网上找到它来检查文件格式。
我需要将每个字母表示为单词,因此“hello”变为“h e l l o”。
按照我的说法表示每个单词后,我应该使用哪种格式?
应该是:
o f
o f
o f
a n d
a n d
或者像原始格式一样:
o f 12765289150
a n d 12522922536
或者也许是其他格式?
它仍然算作谷歌n-gram吗?
我点击链接:How can I use the Google Web N-gram corpus to build an LM作为@ MukundKRoy建议,但我不知道如何在我的情况下使用它(1克,2克......我的新文件不是常量)。
如果有人能告诉我这个文件应该用什么格式与SRILM一起使用,我会很高兴。 感谢
答案 0 :(得分:1)
SRILM正在照顾1-2-3 ..-克,不要打扰。
我做过类似的事情,请看一下:
Moses Installation and Training Run-Through
在PART II - Build a Model
部分Build Language Model
中,它与Google n-gram完美配合。
如果这对您有用,请告诉我。
答案 1 :(得分:0)
您可以使用CMU-Cambridge Statistical Language Modeling Toolkit
来构建语言模型。请参阅wfreq2vocab
和text2wngram
。我认为LM的这种格式可以和摩西一起使用。