我对机器翻译的BLUE Score计算有一些疑问。我意识到他们可能有不同的BLEU指标。我发现代码报告了BLEU的五个值,即BLEU-1,BLEU-2,BLEU-3,BLEU-4以及最后的BLEU,它们似乎是前四个BLEU的指数平均值。我还不清楚它们之间的区别是什么。你有什么想法?感谢
P.S。起初我认为这个question更多的是理论内容并将其发布在meta stackexange上。主持人已关闭并将其评论为stackoverflow类型问题。所以请不要再惩罚我。 =)
答案 0 :(得分:5)
来源:http://www.statmt.org/book/slides/08-evaluation.pdf
我没有听说过BLEU-1和BLEU-2,但我想这意味着在BLEU得分的公式中1克,2克,3克和4克,我的意思是在公式{{ 1}}在你的问题中:
答案 1 :(得分:0)
实际上,BLEU-n不仅仅使用n-gram分数。它计算1克到n克的分数,并给予它们相等的权重来计算最终分数。有关详细信息,请参阅this link处的“累积N-Gram分数”部分。