如何设计启发式匹配翻译的句子?

时间:2011-06-21 11:00:15

标签: translation heuristics

摘要

我正在尝试设计一种启发式,用于匹配翻译中的句子(从原始语言到翻译语言),并希望获得指导和提示。也许有一种启发式方法已经做了类似的事情?因此,给定两个文本文件,我希望能够匹配句子(所以我可以选出一个句子并说这是该句子的翻译)。

详细

输入文字将翻译成小说。所以我不希望翻译是文字的,尽管使用像google translate之类的东西可能是测试启发式准确性的好方法。

为了帮助我,我有一个图书馆,它将翻译翻译文本的内容,并给出句子中单词的定义。我知道的其他事情:

  • 保留章节和秩序;我知道第三章的第一句与翻译第三章的第一句相符(注意,这不是严格正确的;第一句可能与前两句甚至第二句相匹配)
  • 我可以计算整体大小(字符,句子,段落);这可以让我了解句子大小的平均差异(例如,翻译可能会延长30%)。

看一下我的一些书,翻译版的句子比原文少了30%。

实施

(如果重要的话)

  • 我打算用Java做到这一点 - 但我并不感到愤怒 - 任何语言都会这样做。
  • 我并不十分关心速度。

我想要确定匹配项,可能需要一些用户反馈。就像说“是的,这句话绝对符合那句话。”这将为启发式提供更多理由。这意味着用户需要对语言有一点熟练程度。

背景

(感兴趣的人)

我想这样做的原因是我希望它能协助我的外语学习。我正在学习日语,发现很难找到“好”的材料(“好”的定义是我喜欢的)。已经有工具可以使用视频中的字幕做类似的事情(一个更简单的任务 - 使用视频的时间信息)。但据我所知,没有任何内容可用于文本。

1 个答案:

答案 0 :(得分:1)

在NLP研究中使用了一种称为“句子对齐器”的工具,它们完全符合您的要求。

我建议hunalign:

http://mokk.bme.hu/resources/hunalign/

和MS句子对齐:

http://research.microsoft.com/en-us/downloads/aafd5dcf-4dcc-49b2-8a22-f7055113e656/

两者都很好,但请记住,没有什么是完美的。难以对齐的句子将被删除,而某些句子可能会错误地对齐。