我知道标记化标准对于获得的BLEU分数至关重要,但是我不明白的是,为什么在比较基线BLEU分数或自定义BLEU分数时会出现不一致的差异。让我解释。
例如,我最近用一个约30万个细分市场和一个测试集或约2k个细分市场的训练集训练了“英语-丹麦语自定义”模型。完成后,我得到的基线青斑为34,63,自定义青斑为48,3。为了仔细检查这些分数,我使用Moses tokenizer.perl和mult-bleu.perl重新计算了从Custom Translator门户下载的模型“系统测试结果”的bleu分数,并使用基准模型得到了bleu分数34,16,但使用自定义模型,我得到41,57。
您如何解释,使用基准模型时,我得到的分数与从Microsoft获得的分数非常相似,但是使用“定制”模型时,得到的分数要比从Microsoft获得的分数低大约7分。丹麦的情况只是一个例子,但这是我在其他几种语言中观察到的行为。
答案 0 :(得分:0)
您能否通过custommt支持别名与我们联系?我想看看您断断续续的测试数据,并确定为什么会有如此巨大的差异。