“自述”文件中的网址无效(http://www.fjoch.com/mkcls.html和http://www.fjoch.com/GIZA++.html)。关于吉萨++有一个很好的教程吗?或者是否有一些具有完整文档的替代方案?
答案 0 :(得分:37)
以下内容摘自我正在为课程整理的教程。 (注意:这假设您已在* nix系统上成功安装了GIZA ++ - v2。)
样本1 - train.en
I gave him the book .
He read the book .
He loved the book .
示例2 - train.fr
Je lui ai donne/ le livre .
Il a lu le livre .
Il aimait le livre .
plain2snt.out
运行这些文件,以获取目标和源词汇表文件(*.vcb
)以及句子对文件(*.snt
)。在GIZA ++目录中,运行:
./plain2snt.out TEXT1 TEXT2
其中TEXT1
和TEXT2
是步骤1中描述的数据文件。
这会在与TEXT1
和TEXT2
相同的目录中生成四个文件(假设它们位于同一目录中):
vocab文件包含文本中每个单词的唯一(整数)ID(NB:not tokenized / lemmatized),单词/字符串以及字符串出现的次数。它们由单个空格字符分隔。
句子文件包含数字。对于每个句子对,有三行:第一行是句子对在语料库中出现的次数的计数,第二行和第三句是一串(空格分隔的)数字,对应于词汇文件。根据{{1}}文件的命名约定,假定第一个文件是源,第二个文件假定为目标语言。例如,在文件*.snt
中,第一行将是语料库中第一个句子对出现次数的计数,第二行将是与{{中的单词对应的数字对应的字符串1}}文件,第三行将是一个与TEXT1_TEXT2.snt
文件中的单词对应的数字字符串。
TEXT1.vcb
,TEXT2.vcb
,两个TEXT1.vcb
文件中的任何一个都可以用作GIZA ++的输入来生成对齐。例如:
TEXT2.vcb
但请注意,当我尝试运行此操作时,我必须将*.snt
重命名为名称中没有下划线的内容,以便获得任何正确的输出。
答案 1 :(得分:3)
此Powerpoint教程为我工作:http://www.tc.umn.edu/~bthomson/wordalignment/GIZA.ppt
答案 2 :(得分:2)
这个可能吗?
答案 3 :(得分:1)
IIT-B学者为GIZA ++和MOSES设置和使用提供了精彩而详细的演示文稿。
其中一些是: http://www.cse.iitb.ac.in/~pb/cs712-2013/potpouri/kashyap-giza-mozes-jan2013.pdf
http://www.cse.iitb.ac.in/~anoopk/publications/presentations/moses_giza_intro.pdf
答案 4 :(得分:0)
有关如何格式化输入文件以及如何在此处运行GIZA ++的补充说明:
http://www.tc.umn.edu/~bthomson/wordalignment/GIZAREADME.txt