这可能更像是一个数学问题, 但我在其他地方找不到任何相关文件。
我只是想弄清楚哪个方程用于计算GIZA ++中的对齐分数。
可能有人有想法吗?
提前感谢您的帮助。
答案 0 :(得分:4)
如果有帮助,我找到this document,其中包含以下说明:
实现具有word依赖关系的完整IBM-4对齐模型 (Brown等人,1993)
中描述的类别
跟进该参考文件会得到一篇题为"统计机器翻译数学:参数估计" 的论文,您可以找到in PDF format here。
本文详细介绍了5种对齐模型的基础数据,并且在此处粘贴过于冗长。也许您可以看到它在模型4的描述中是否足够详细,我认为它是由GIZA ++使用的。
还有this PDF,它总结了模型和培训过程。
答案 1 :(得分:0)
简而言之,在期望最大算法的多次迭代中学习单词对齐和转换概率。
Philip Koehn的“统计机器翻译”有一个关于单词对齐的章节。查看statmt.org了解详情。