如何使用BLEU分数将您的模型与现有模型进行比较?

时间:2019-04-21 12:25:51

标签: machine-translation seq2seq neural-mt

因此,我正在使用BLEU得分指标来比较我的NMT模型和现有模型的性能。但是,我想知道我必须与其他型号匹配多少设置。

我认为可行的设置包括开发集,测试集和超参数。但是,我使用的预处理步骤与现有模型不同,因此我想知道我的模型的BLEU得分是否可以与其他模型进行比较。现有模型还有可能具有未报告的隐藏参数。

https://arxiv.org/pdf/1804.08771.pdf解决了报告BLEU的问题,并要求切换到SacreBLEU。但是许多现有模型都使用BLEU,所以我认为我无法在模型上使用SacreBLEU得分指标。

1 个答案:

答案 0 :(得分:0)

tl; dr

SacreBLEU并不是一个不同的指标,它是BLEU的实现,因此,您在论文中看到的BLEU,应该与您从SacreBLEU获得的相当。尽可能使用SacreBLEU。

BLEU分数的简要记录

BLEU分数对令牌化非常敏感,因此每个人都使用相同的令牌非常重要。最初有一个Perl implementation from 2001,长期以来一直被认为是BLEU的规范实现。使用脚本有很多麻烦(它在Perl中,要求数据采用相当模糊的SGM格式)。因此(并且因为BLEU分数非常简单),出现了许多独立的实现,例如,在MultEvalNLTK中。它们更易于使用,但是由于数据预处理中的一些细微差异,因此无法产生相同的结果。 SacreBLEU可以执行与原始Perl脚本相同的标记化操作,并获得相同的分数,但是它以纯文本格式读取数据,并且使用的是Python(目前在机器翻译中使用最多)。