如何构建准确的翻译引擎?

时间:2010-12-22 13:51:38

标签: c++ lua translation nlp machine-translation

几个月前我找到了一个公式,我自己将任何源语言(计算机字符)翻译成目的地(计算机字符)。使用Lua(桌面用户)和C ++类(用于本机访问),以便我可以将其嵌入Web浏览器等等。我想知道我们是否已经在C ++或Lua中为此做了更好的事情。

我有时真的没有正确地翻译语法甚至是规则,在构建之前我认为我的方法是最好的方法,但它现在已经很久了,我担心它可能会成为错误的实现。现在我想查看其他人并比较我的。

我使用谷歌翻译或其他不是我的目标,我正在建立一个翻译引擎(如谷歌或其他人),有人可以在那里放字典和创建规则。

是否有任何现有的翻译框架或库(OpenCOG或Moses)为目标做源语言? 例如:阿拉伯语为中文,英文为日文?或Google /其他人使用了什么?

任何建议都将不胜感激

提前致谢。

3 个答案:

答案 0 :(得分:5)

Moses是一个非常好的C ++开源翻译库。 cdec代表了当前的技术发展水平(但需要源语言和目标语言的无上下文语法)。两者都需要大量的训练数据,即平行语料库。

当你完成后,跑到你的大学并要求博士学位。

答案 1 :(得分:4)

我不想劝阻你,但你正试图单独解决Machine Translation的问题。像Systran这样的MT系统已经由科学家和工程师团队开发了几十年,但它们仍然远非完美。

答案 2 :(得分:1)

你看过Google Translator Toolkit API了吗?通过分析它的各个方面,您可以一瞥它实现的内容以及开发自己的翻译框架所需的内容(顺便说一下,还有很多工作)。

Creating/Uploading translation documents

Full list of supported source and target languages

http://www.leniel.net/2010/12/playing-google-translator-toolkit-api.html

更多内容:

Free/open-source machine translation systems and tools

GNU gettext

TinyTM - Open-Source Translation Memory