如何将这些单词聚集到GIZA ++的mkcls文件中的单词类中,以及它们分组的基础是什么?

时间:2014-10-16 07:48:06

标签: class numbers nlp word giza++

  1. mzcls在giza ++中有什么用?

  2. 在运行mkcls时,giza ++为源语言和目标语言生成四个文件* .vcb.classes和* .vcb.classes.cats。

  3. * .vcb.classes的输出是:

    .      9
    book  10
    gave   4
    he     3
    him    5
    i      7
    loved  8
    read   8
    the    2
    

    这个数字是指什么?这是单词类数吗?如果它是一个单词类编号,那么它是如何生成的,或者它是如何分类到不同的类中的?

1 个答案:

答案 0 :(得分:1)

' mkcls'程序将单词组合成等价类。 GIZA ++使用输出进行字对齐。见Franz Josef Och, An Efficient Method for Determining Bilingual Word Classes