有人可以解释这个mgiza脚本是如何工作的吗?

时间:2011-03-21 09:50:29

标签: python nlp corpus machine-translation

$:~/mgizapp/scripts$ ./plain2snt-hasvcb.py
Error, the input should be 
./plain2snt-hasvcb.py evcb fvcb etxt ftxt esnt(out) fsnt(out) evcbx(out) fvcbx(out)
You should concatenate the evcbx and fvcbx to existing vcb files

有人可以解释plain2snt脚本的所有acrane输入是什么吗?该脚本来自mgiza ++程序,用于从http://geek.kyloo.net/software/doku.php/mgiza:forcealignment

进行单词对齐

evcb =? #是source.vcb文件吗? fvcb =? #是target.vcb文件吗?

esnt(out)=? fsnt(out)=?

evcbx(out)=? fvcbx(out)=?

ANSWER

我设法让它工作

$mkcls -n10 -psourcelangfile.vcb -Vsourcelangfile.vcb.classes
$mkcls -n10 -psourcelangfile.vcb -Vtargetlangfile.vcb.classes
$plain2snt sourcelangfile targetlangfile
$snt2cooc sourcelang_targetlang.cooc sourcelangfile.vcb targetlangfile.vcb sourcelangfile_targetlangfile.snt

1 个答案:

答案 0 :(得分:1)

根据我对GIZA ++的经验和你链接到的页面的经验,我说evcb和fvcb是你已经生成的“英语”和“外国”词汇文件,而且etxt和ftxt是“英语”和“外国”文本输入。似乎esnt和fsnt是“英语”和“外语”句子输出文件(可能是用vcb文件中的唯一标识符替换单词的句子)。最后,evcbx和fvcbx似乎是通过连接来扩展原始词汇文件的输出位置。

我希望这会有所帮助,我希望如果我错了,其他使用MGIZA的人可以跳进来纠正我。