应用错误收集

实时机器翻译的最佳评估方法？

时间：2017-05-12 17:27:33

标签： nlp precision-recall machine-translation

我知道有许多不同的方法，如BLEU，NIST，METEOR等。它们各有利弊，它们的有效性不同于语料库和语料库。我对实时翻译感兴趣，这样两个人就可以通过一次输入几个句子并立即翻译来进行对话。

这会算什么样的语料库？对于大多数传统方法的适当评估，文本是否会被认为太短？扬声器不断切换的事实是否会使背景变得更加困难？

2 个答案:

答案 0 :(得分：1)

您所要求的，属于 Confidence Estimation 的领域，现在（在机器翻译（MT）社区内）更好地称为质量评估，即“将分数分配给MT输出而无需访问参考译文“。

对于MT评估（使用BLEU，NIST或METEOR），您需要：

假设翻译（MT输出）
参考译文（来自测试集）

在您的情况下（实时翻译），您没有（2）。因此，您必须根据源句和假设翻译的特征以及您对MT过程的了解来估计系统的性能。

具有17个功能的基线系统描述于：

Specia，L.，Turchi，M.，Cancedda，N.，Dymetman，M。，＆amp; Cristianini，N。（2009b）。估计机器翻译系统的句子级别质量。第13届欧洲机器翻译协会会议（第28-37页）
您可以找到here

质量评估是一个活跃的研究课题。可以在WMT会议的网站上遵循最新的进展。查找质量估算共享任务，例如http://www.statmt.org/wmt17/quality-estimation-task.html

答案 1 :(得分：0)

您的语料库可以是聊天，也可以是一种问题和答案。如果您有很多句子建议，可以尝试https://gitlab.com/Bachstelze/translation-metric/tree/master/ 这是一种在句子级别上的向量空间模型方法，因此您不必学习特定于语言的系统，并且只要句子的长度不要太短，说话者之间的切换就不会成为问题。 >