什么是统计机器翻译的好解释?

时间:2011-04-28 07:35:18

标签: language-agnostic machine-translation

我正试图找到关于统计机器翻译如何工作的高级解释。也就是说,假设我有一个不对齐的英语,法语和德语文本语料库,我怎么能用它来将任何句子从一种语言翻译成另一种语言呢?并不是我想要自己构建谷歌翻译,但我想更详细地了解它的工作原理。

我见过搜索谷歌但没有什么好处,它要么很快需要高级数学知识来理解,要么过于笼统。维基百科关于SMT的文章似乎都是,所以它并没有多大帮助。我怀疑这是一个如此复杂的领域,没有所有的数学就无法理解。

任何人都可以提供或了解这样一个系统如何工作的一般性逐步解释,针对程序员(所以代码示例很好)但不需要数学学位才能理解?或者像这样的书也会很棒。

编辑:我正在寻找的一个完美示例是与Peter Norvig's great article on spelling correction相当的SMT。这样可以很好地了解它在编写拼写检查器时所涉及的内容,而无需详细了解Levenshtein / soundex / smoothing算法等...

3 个答案:

答案 0 :(得分:3)

这是一个很好的视频讲座(分为两部分):

http://videolectures.net/aerfaiss08_koehn_pbfs/

对于深入的细节,我高度建议这本书:

http://www.amazon.com/Statistical-Machine-Translation-Philipp-Koehn/dp/0521874157

两者都来自于在研究中创造最广泛使用的MT系统的人。它涵盖了所有基本的东西,非常好解释和准确。这可能是任何研究人员在这一领域开始阅读的事实上的标准书之一。

答案 1 :(得分:3)

大西洋在线在1998年12月对统计机器翻译进行了非常简单的非技术性描述:

  

Lost in Translation by Stephen Budiansky

我之前在统计MT上读过非技术性的东西,但总是想知道“是的,但 如何统计资料知道哪些单词映射到哪个单词顺序变化,据说没有字典,也没有使用语法?”那么这篇文章实际上确实回答了这个问题,而且简单明了,而且我很惊讶。

答案 2 :(得分:0)

来自Google Developer Day 2007的Peter Norvig演讲Theorizing from Data: Avoiding the Capital Mistake,包含一些关于统计机器翻译原则的高级解释(从大约21:20开始)。