什么是良好的机器翻译度量或黄金集

时间:2011-12-14 19:52:32

标签: multilingual metrics machine-translation

我开始考虑对搜索查询进行一些机器翻译,并且一直在尝试考虑在迭代和其他系统之间对翻译系统进行评级的不同方法。我想到的第一件事就是从一群人的mturk翻译一组搜索词,并说每一个都是有效的,或者说这些都是有效的,但这样做会很昂贵,并且可能容易让人误入歧途。

现在我正在考虑更便宜或更好的东西,我想我会问StackOverflow的想法,以防已经有一些标准可用,或者有人试图找到其中之一。例如,有人知道Google Translate如何对其系统的各种迭代进行评级吗?

3 个答案:

答案 0 :(得分:2)

这里有一些信息可能有用,因为它提供了BLEU评分技术的基本解释,该技术通常用于衡量开发人员对MT系统的质量。

第一个链接提供了BLEU的基本概述,第二个链接指出了BLEU在其局限方面的一些问题。

http://kv-emptypages.blogspot.com/2010/03/need-for-automated-quality-measurement.html

http://kv-emptypages.blogspot.com/2010/03/problems-with-bleu-and-new-translation.html

关于如何在此链接上开发有用的测试集还有一些非常具体的实用建议:11月份时事通讯中的AsiaOnline.Net网站。我无法将此链接放入,因为有两个限制。

答案 1 :(得分:1)

我建议改进你的问题。机器翻译有很多指标,这取决于你想要做什么。在您的情况下,我认为问题简单地说:“在语言L1中给出一组查询,如何在网络搜索环境中测量L2翻译的质量?”

这基本上是跨语言信息检索。

在这里要认识到的重要一点是,您实际上并不关心为用户提供查询的翻译:您希望获得他们从一个好的翻译中得到的结果查询。

为此,您只需测量黄金翻译与系统结果之间结果列表的差异即可。您可以使用许多衡量等级相关,设置重叠等的指标。关键在于您无需判断每个翻译,只需评估自动翻译是否为您提供与人工翻译相同的结果。

对于提出错误翻译的人,您可以评估推定的黄金标准候选人是否具有相似的结果列表(即,他们在结果中同意3个手动翻译?如果不是,请使用最重叠的2个)。如果是这样,那么从IR角度来看,这些实际上是同义词。

答案 2 :(得分:0)

在我们的MT Evaluation中,我们使用hLEPOR分数(有关详细信息,请参阅幻灯片)