实时机器翻译的最佳评估方法?

时间:2017-05-12 17:27:33

标签: nlp precision-recall machine-translation

我知道有许多不同的方法,如BLEU,NIST,METEOR等。它们各有利弊,它们的有效性不同于语料库和语料库。我对实时翻译感兴趣,这样两个人就可以通过一次输入几个句子并立即翻译来进行对话。

这会算什么样的语料库?对于大多数传统方法的适当评估,文本是否会被认为太短?扬声器不断切换的事实是否会使背景变得更加困难?

2 个答案:

答案 0 :(得分:1)

您所要求的,属于 Confidence Estimation 的领域,现在(在机器翻译(MT)社区内)更好地称为质量评估,即“将分数分配给MT输出而无需访问参考译文“。

对于MT评估(使用BLEU,NIST或METEOR),您需要:

  1. 假设翻译(MT输出)
  2. 参考译文(来自测试集)
  3. 在您的情况下(实时翻译),您没有(2)。因此,您必须根据源句和假设翻译的特征以及您对MT过程的了解来估计系统的性能。

    具有17个功能的基线系统描述于:

    • Specia,L.,Turchi,M.,Cancedda,N.,Dymetman,M。,& Cristianini,N。(2009b)。估计机器翻译系统的句子级别质量。第13届欧洲机器翻译协会会议(第28-37页)
    • 您可以找到here

    质量评估是一个活跃的研究课题。可以在WMT会议的网站上遵循最新的进展。查找质量估算共享任务,例如http://www.statmt.org/wmt17/quality-estimation-task.html

答案 1 :(得分:0)

您的语料库可以是聊天,也可以是一种问题和答案。 如果您有很多句子建议,可以尝试https://gitlab.com/Bachstelze/translation-metric/tree/master/ 这是一种在句子级别上的向量空间模型方法,因此您不必学习特定于语言的系统,并且只要句子的长度不要太短,说话者之间的切换就不会成为问题。 >