如何从对齐工具fast_align解释对齐分数?

时间:2019-10-08 19:06:29

标签: nlp alignment language-translation machine-translation

我正在使用对齐工具包fast_align:https://github.com/clab/fast_align,以获取并行语料库的词对词对齐方式。有一个选项可以打印出比对分数-如何解释该分数?分数是否衡量平行句子之间的对齐程度?我知道语料库中的某些句子对齐得很好,而另一些句子则没有,但是到目前为止,我发现分数与对齐程度之间没有关联。我应该调整句子中的单词数吗?

1 个答案:

答案 0 :(得分:1)

FastAlign是IBM Model 2的实现,分数是此模型估计的概率。该模型的详细信息在these slides from JHU中得到了很好的解释。

分数是给定目标句子单词和对齐方式的源句子的概率。该算法反复估算:

  1. 源语言和目标语言对(几乎所有)对彼此翻译的可能性。
  2. 给出单词到单词的翻译概率的最佳对齐方式。

然后,分数是单词到单词的翻译概率与算法收敛到的对齐方式的乘积。因此,从理论上讲,这应该与句子的平行程度相关联,但是有很多方法可以打破这些句子。例如,稀有词具有不可靠的概率估计。另一个问题可能是某些单词(例如“ of”)可能是多单词表达式的一部分,而这些单词在其他语言中是单个单词,这也会使概率估计值产生偏差。因此,难怪这种可能性不值得信赖。

如果您的目标是过滤平行语料库并删除不正确对齐的句子对,那么我建议您采取其他措施。例如,您可以像在a paper by Google中那样使用多语言BERT,在多语言BERT中,它们是跨语言检索的中心向量。或只是谷歌的“并行语料库过滤”。