Question

“自述”文件中的网址无效（http://www.fjoch.com/mkcls.html和http://www.fjoch.com/GIZA++.html）。关于吉萨++有一个很好的教程吗？或者是否有一些具有完整文档的替代方案？

Answer 1

以下内容摘自我正在为课程整理的教程。（注意：这假设您已在* nix系统上成功安装了GIZA ++ - v2。）

从包含已经标记化的并行句子的两个数据文件开始，每行一个句子。例如，一对平行的英语 - 法语文件可能如下所示。

样本1 - train.en

I gave him the book . 
He read the book . 
He loved the book .

示例2 - train.fr

Je lui ai donne/ le livre .
Il a lu le livre .
Il aimait le livre .

通过plain2snt.out运行这些文件，以获取目标和源词汇表文件（*.vcb）以及句子对文件（*.snt）。

在GIZA ++目录中，运行：

./plain2snt.out TEXT1 TEXT2

其中TEXT1和TEXT2是步骤1中描述的数据文件。

这会在与TEXT1和TEXT2相同的目录中生成四个文件（假设它们位于同一目录中）：

TEXT1_TEXT2.snt
TEXT1.vcb
TEXT2_TEXT1.snt
TEXT2.vcb

vocab文件包含文本中每个单词的唯一（整数）ID（NB：not tokenized / lemmatized），单词/字符串以及字符串出现的次数。它们由单个空格字符分隔。

句子文件包含数字。对于每个句子对，有三行：第一行是句子对在语料库中出现的次数的计数，第二行和第三句是一串（空格分隔的）数字，对应于词汇文件。根据{{1}}文件的命名约定，假定第一个文件是源，第二个文件假定为目标语言。例如，在文件*.snt中，第一行将是语料库中第一个句子对出现次数的计数，第二行将是与{{中的单词对应的数字对应的字符串1}}文件，第三行将是一个与TEXT1_TEXT2.snt文件中的单词对应的数字字符串。