摩西的语料库文件格式

时间:2013-01-16 20:37:20

标签: linux moses

我正在使用摩西制作语言模型。

我按照此链接中的说明操作:Baseline System: Moses

我有google 1-gram文件,如下所示:

</S>    95119665584
<S>     95119665584
,       30578667846
.       22077031422
<UNK>   21594821357
the     19401194714
-       16337125274
of      12765289150
and     12522922536

这意味着“of”这个词出现了12,765,289,150次。

现在我想从这个文件(“构建语言模型”)中创建一个语言模型,

我不知道这种文件格式是否适用于摩西。

在教程中,他们正在使用“europarl-v6.en”,但我无法在网上找到它来检查文件格式。

最后编辑:

我需要将每个字母表示为单词,因此“hello”变为“h e l l o”。

按照我的说法表示每个单词后,我应该使用哪种格式?

应该是:

o f
o f
o f
a n d
a n d

或者像原始格式一样:

o f       12765289150
a n d     12522922536

或者也许是其他格式?

它仍然算作谷歌n-gram吗?

我点击链接:How can I use the Google Web N-gram corpus to build an LM作为@ MukundKRoy建议,但我不知道如何在我的情况下使用它(1克,2克......我的新文件不是常量)。

如果有人能告诉我这个文件应该用什么格式与SRILM一起使用,我会很高兴。 感谢

2 个答案:

答案 0 :(得分:1)

SRILM正在照顾1-2-3 ..-克,不要打扰。

我做过类似的事情,请看一下:

Moses Installation and Training Run-Through

PART II - Build a Model部分Build Language Model中,它与Google n-gram完美配合。

如果这对您有用,请告诉我。

答案 1 :(得分:0)

您可以使用CMU-Cambridge Statistical Language Modeling Toolkit来构建语言模型。请参阅wfreq2vocabtext2wngram。我认为LM的这种格式可以和摩西一起使用。