有关于giza ++的教程吗?

时间:2011-04-22 03:36:07

标签: nlp machine-translation giza++

“自述”文件中的网址无效(http://www.fjoch.com/mkcls.htmlhttp://www.fjoch.com/GIZA++.html)。关于吉萨++有一个很好的教程吗?或者是否有一些具有完整文档的替代方案?

5 个答案:

答案 0 :(得分:37)

以下内容摘自我正在为课程整理的教程。 (注意:这假设您已在* nix系统上成功安装了GIZA ++ - v2。)


  1. 从包含已经标记化的并行句子的两个数据文件开始,每行一个句子。例如,一对平行的英语 - 法语文件可能如下所示。
  2. 样本1 - train.en

    I gave him the book . 
    He read the book . 
    He loved the book .
    

    示例2 - train.fr

    Je lui ai donne/ le livre .
    Il a lu le livre .
    Il aimait le livre .
    
    1. 通过plain2snt.out运行这些文件,以获取目标和源词汇表文件(*.vcb)以及句子对文件(*.snt)。
    2. 在GIZA ++目录中,运行:

      ./plain2snt.out TEXT1 TEXT2
      

      其中TEXT1TEXT2是步骤1中描述的数据文件。

      这会在与TEXT1TEXT2相同的目录中生成四个文件(假设它们位于同一目录中):

      • TEXT1_TEXT2.snt
      • TEXT1.vcb
      • TEXT2_TEXT1.snt
      • TEXT2.vcb

      vocab文件包含文本中每个单词的唯一(整数)ID(NB:not tokenized / lemmatized),单词/字符串以及字符串出现的次数。它们由单个空格字符分隔。

      句子文件包含数字。对于每个句子对,有三行:第一行是句子对在语料库中出现的次数的计数,第二行和第三句是一串(空格分隔的)数字,对应于词汇文件。根据{{​​1}}文件的命名约定,假定第一个文件是源,第二个文件假定为目标语言。例如,在文件*.snt中,第一行将是语料库中第一个句子对出现次数的计数,第二行将是与{{中的单词对应的数字对应的字符串1}}文件,第三行将是一个与TEXT1_TEXT2.snt文件中的单词对应的数字字符串。

      1. 现在TEXT1.vcbTEXT2.vcb,两个TEXT1.vcb文件中的任何一个都可以用作GIZA ++的输入来生成对齐。
      2. 例如:

        TEXT2.vcb

        但请注意,当我尝试运行此操作时,我必须将*.snt重命名为名称中没有下划线的内容,以便获得任何正确的输出。

答案 1 :(得分:3)

此Powerpoint教程为我工作:http://www.tc.umn.edu/~bthomson/wordalignment/GIZA.ppt

答案 2 :(得分:2)

答案 3 :(得分:1)

答案 4 :(得分:0)

有关如何格式化输入文件以及如何在此处运行GIZA ++的补充说明:

http://www.tc.umn.edu/~bthomson/wordalignment/GIZAREADME.txt