标签: machine-learning deep-learning nlp stanford-nlp natural-language-processing
我试图理解BLEU分数的概念。 然后我发现这篇写着
“该方法通过将候选翻译中匹配的n-gram计数为参考文本中的n-gram来工作,其中1-gram或unigram是每个标记,而bigram比较是每个单词对。”
但是,这几乎与为两个相似性得分黑白文本计算jaccard分数时相同。
有人可以向我解释BLEU评分的工作原理,以及它的b / w差异与基于jaccard评分的相似性度量。