我正在尝试将英语翻译为威尔士语。我有一个3032个句子的数据集,据我所知,它低于建议的10000个限制,但是问题是随机单词被添加到句子中或在翻译结束时被添加。
有了我的数据集,我的BLEU得分为94.25。
Image of Translation Differences
我附了四个示例,其中在整个表格中添加了额外的单词。数据集中的任何位置都没有与这些格式中的任何一种匹配的单词重复,并且在翻译中没有尾随空格,这可以解释为什么特别是“ yn”作为新句子出现的原因。
有什么方法可以消除这些错误的多余单词或提高翻译的准确性?将句子的总数增加到10000以上将是一项非常艰巨的任务,如果系统仍然有很大的机会返回随机单词,那么这将不是一件容易的事。
答案 0 :(得分:0)
我也将此作为Microsoft的支持请求提出。他们曾表示,问题在于使用包含动词作为翻译一部分的字典。
此后,我一直尝试使用英国英语作为翻译的基础(以前无法建立该选项),并且在相同的数据集下,BLEU分数为93.24,但是多余的单词却消失了。
我的问题已解决,现在可以解决不正确的翻译问题。看来英语到威尔士语的翻译有错误。