microsoft-translator - 您能解释一下如何计算基线和自定义BLEU分数吗？

我知道标记化标准对于获得的BLEU分数至关重要，但是我不明白的是，为什么在比较基线BLEU分数或自定义BLEU分数时会出现不一致的差异。让我解释。

例如，我最近用一个约30万个细分市场和一个测试集或约2k个细分市场的训练集训练了“英语-丹麦语自定义”模型。完成后，我得到的基线青斑为34,63，自定义青斑为48,3。为了仔细检查这些分数，我使用Moses tokenizer.perl和mult-bleu.perl重新计算了从Custom Translator门户下载的模型“系统测试结果”的bleu分数，并使用基准模型得到了bleu分数34,16，但使用自定义模型，我得到41,57。

您如何解释，使用基准模型时，我得到的分数与从Microsoft获得的分数非常相似，但是使用“定制”模型时，得到的分数要比从Microsoft获得的分数低大约7分。丹麦的情况只是一个例子，但这是我在其他几种语言中观察到的行为。

您能解释一下如何计算基线和自定义BLEU分数吗？

1 个答案: