Question

$:~/mgizapp/scripts$ ./plain2snt-hasvcb.py
Error, the input should be 
./plain2snt-hasvcb.py evcb fvcb etxt ftxt esnt(out) fsnt(out) evcbx(out) fvcbx(out)
You should concatenate the evcbx and fvcbx to existing vcb files

有人可以解释plain2snt脚本的所有acrane输入是什么吗？该脚本来自mgiza ++程序，用于从http://geek.kyloo.net/software/doku.php/mgiza:forcealignment

进行单词对齐

evcb =？＃是source.vcb文件吗？ fvcb =？＃是target.vcb文件吗？

esnt（out）=？ fsnt（out）=？

evcbx（out）=？ fvcbx（out）=？

ANSWER

我设法让它工作

$mkcls -n10 -psourcelangfile.vcb -Vsourcelangfile.vcb.classes
$mkcls -n10 -psourcelangfile.vcb -Vtargetlangfile.vcb.classes
$plain2snt sourcelangfile targetlangfile
$snt2cooc sourcelang_targetlang.cooc sourcelangfile.vcb targetlangfile.vcb sourcelangfile_targetlangfile.snt

Answer 1

根据我对GIZA ++的经验和你链接到的页面的经验，我说evcb和fvcb是你已经生成的“英语”和“外国”词汇文件，而且etxt和ftxt是“英语”和“外国”文本输入。似乎esnt和fsnt是“英语”和“外语”句子输出文件（可能是用vcb文件中的唯一标识符替换单词的句子）。最后，evcbx和fvcbx似乎是通过连接来扩展原始词汇文件的输出位置。

我希望这会有所帮助，我希望如果我错了，其他使用MGIZA的人可以跳进来纠正我。

有人可以解释这个mgiza脚本是如何工作的吗？

1 个答案: