GIZA ++:禁止零句长度0

时间:2017-06-07 16:45:04

标签: giza++

当我在测试数据集上使用时,我一直在使用GIZA ++来翻译句子,显示错误“ERROR:Forbidden zero sentence length 0”。有没有办法避免这个错误

1 个答案:

答案 0 :(得分:1)

我对 en-vi 语料库有同样的问题。 ( - 越南) 因为您的语料库数据太长或不干净。

您应该清理语料库数据。

它会将句子长度限制为80.这是使用 Moses工具的命令。

~/mosesdecoder/scripts/training/clean-corpus-n.perl 
~/corpus/train en vi 
~/corpus/train.clean 1 80

或者您可以手动调整。

尝试减少每行少于100个字符或80个字的长度。