我知道有许多不同的方法,如BLEU,NIST,METEOR等。它们各有利弊,它们的有效性不同于语料库和语料库。我对实时翻译感兴趣,这样两个人就可以通过一次输入几个句子并立即翻译来进行对话。
这会算什么样的语料库?对于大多数传统方法的适当评估,文本是否会被认为太短?扬声器不断切换的事实是否会使背景变得更加困难?
答案 0 :(得分:1)
您所要求的,属于 Confidence Estimation 的领域,现在(在机器翻译(MT)社区内)更好地称为质量评估,即“将分数分配给MT输出而无需访问参考译文“。
对于MT评估(使用BLEU,NIST或METEOR),您需要:
在您的情况下(实时翻译),您没有(2)。因此,您必须根据源句和假设翻译的特征以及您对MT过程的了解来估计系统的性能。
具有17个功能的基线系统描述于:
质量评估是一个活跃的研究课题。可以在WMT会议的网站上遵循最新的进展。查找质量估算共享任务,例如http://www.statmt.org/wmt17/quality-estimation-task.html
答案 1 :(得分:0)
您的语料库可以是聊天,也可以是一种问题和答案。 如果您有很多句子建议,可以尝试https://gitlab.com/Bachstelze/translation-metric/tree/master/ 这是一种在句子级别上的向量空间模型方法,因此您不必学习特定于语言的系统,并且只要句子的长度不要太短,说话者之间的切换就不会成为问题。 >