最后编辑：

Question

我正在使用摩西制作语言模型。

我按照此链接中的说明操作：Baseline System: Moses

我有google 1-gram文件，如下所示：

</S>    95119665584
<S>     95119665584
,       30578667846
.       22077031422
<UNK>   21594821357
the     19401194714
-       16337125274
of      12765289150
and     12522922536

这意味着“of”这个词出现了12,765,289,150次。

现在我想从这个文件（“构建语言模型”）中创建一个语言模型，

我不知道这种文件格式是否适用于摩西。

在教程中，他们正在使用“europarl-v6.en”，但我无法在网上找到它来检查文件格式。

最后编辑：

我需要将每个字母表示为单词，因此“hello”变为“h e l l o”。

按照我的说法表示每个单词后，我应该使用哪种格式？

应该是：

o f
o f
o f
a n d
a n d

或者像原始格式一样：

o f       12765289150
a n d     12522922536

或者也许是其他格式？

它仍然算作谷歌n-gram吗？

我点击链接：How can I use the Google Web N-gram corpus to build an LM作为@ MukundKRoy建议，但我不知道如何在我的情况下使用它（1克，2克......我的新文件不是常量）。

如果有人能告诉我这个文件应该用什么格式与SRILM一起使用，我会很高兴。感谢

Answer 1

SRILM正在照顾1-2-3 ..-克，不要打扰。

我做过类似的事情，请看一下：

Moses Installation and Training Run-Through

在PART II - Build a Model部分Build Language Model中，它与Google n-gram完美配合。

如果这对您有用，请告诉我。

Answer 2

您可以使用CMU-Cambridge Statistical Language Modeling Toolkit来构建语言模型。请参阅wfreq2vocab和text2wngram。我认为LM的这种格式可以和摩西一起使用。

摩西的语料库文件格式

最后编辑：

2 个答案: