当我在测试数据集上使用时,我一直在使用GIZA ++来翻译句子,显示错误“ERROR:Forbidden zero sentence length 0”。有没有办法避免这个错误
答案 0 :(得分:1)
我对 en-vi 语料库有同样的问题。 (英 - 越南) 因为您的语料库数据太长或不干净。
您应该清理语料库数据。
它会将句子长度限制为80.这是使用 Moses工具的命令。
~/mosesdecoder/scripts/training/clean-corpus-n.perl
~/corpus/train en vi
~/corpus/train.clean 1 80
或者您可以手动调整。
尝试减少每行少于100个字符或80个字的长度。