我正在尝试设计一种启发式,用于匹配翻译中的句子(从原始语言到翻译语言),并希望获得指导和提示。也许有一种启发式方法已经做了类似的事情?因此,给定两个文本文件,我希望能够匹配句子(所以我可以选出一个句子并说这是该句子的翻译)。
输入文字将翻译成小说。所以我不希望翻译是文字的,尽管使用像google translate之类的东西可能是测试启发式准确性的好方法。
为了帮助我,我有一个图书馆,它将翻译翻译文本的内容,并给出句子中单词的定义。我知道的其他事情:
看一下我的一些书,翻译版的句子比原文少了30%。
(如果重要的话)
我想要确定匹配项,可能需要一些用户反馈。就像说“是的,这句话绝对符合那句话。”这将为启发式提供更多理由。这意味着用户需要对语言有一点熟练程度。
(感兴趣的人)
我想这样做的原因是我希望它能协助我的外语学习。我正在学习日语,发现很难找到“好”的材料(“好”的定义是我喜欢的)。已经有工具可以使用视频中的字幕做类似的事情(一个更简单的任务 - 使用视频的时间信息)。但据我所知,没有任何内容可用于文本。
答案 0 :(得分:1)
在NLP研究中使用了一种称为“句子对齐器”的工具,它们完全符合您的要求。
我建议hunalign:
http://mokk.bme.hu/resources/hunalign/
和MS句子对齐:
http://research.microsoft.com/en-us/downloads/aafd5dcf-4dcc-49b2-8a22-f7055113e656/
两者都很好,但请记住,没有什么是完美的。难以对齐的句子将被删除,而某些句子可能会错误地对齐。