应用错误收集

自然语言处理 - 单词对齐

时间：2010-03-11 14:18:26

标签： alignment nlp linguistics

我正在寻找文字对齐工具和算法我正在处理双语英语 - 印地语文本，目前正致力于

DTW（动态时间扭曲）算法
CLA （竞争链接算法）
NATools
Giza++

请您建议任何其他语言无关的算法/工具，它可以实现并行英语印地语语料库的统计词对齐及其评估。
有些工具最适合某些语言;你能不能告诉我这是多么真实，如果是的话，请你提供一个更适合像印地语这样的亚洲语言的例子。反对我不应该使用这些语言的例子也是受欢迎的。

我听过一些关于Uplug word aligner的消息......有人能告诉我这个工具对我的用途是否有用。

谢谢.. :)）

4 个答案:

答案 0 :(得分：5)

Berkeley Aligner非常好。通过对IBM字对齐模型进行联合培训，它可以比GIZA ++等旧版软件包获得更低的对齐错误率（AER）。

它还支持一些更高级的功能，例如语法失真（即，使用解析树信息来获得更好的对齐）。为此，您只需要为其中一个语言对解析树。所以，你应该可以做印地语＆lt; - ＆gt;英语，因为有很多免费提供和良好的英语解析器。

如果您决定不使用Berkeley Aligner，您应该只使用GIZA ++。多年来，它在机器翻译社区中基本上是标准字对齐器。

答案 1 :(得分：2)

Uplug是一个很棒的工具，我一直用它来调整英语＆lt; - ＆gt;马其顿文本。它主要建立在Giza ++上，通过添加所谓的线索对齐。它的高级设置实际上结合了线索对齐和Giza ++，并执行了3次这样的迭代。更多的线索（pos-tags，lemmas ......）你提供的结果会更好。但是我必须提到你不应该期望通过使用Giza ++获得根本不同的结果。

无论如何，如果你打算认真研究SMT的话题，我建议你阅读关于Uplug的论文（博士论文），这对你非常有益。

答案 2 :(得分：0)

Moses是您可能想要查看的统计机器翻译套件。它的单词对齐组件是基于GIZA ++构建的，但可以调整为使用某些语言对比纯GIZA ++更好地工作。他们的邮件列表和您在http://www.statmt.org/上可以找到的资源也可能是比SO更好地提出有关此主题的问题的地方。有一件事你没有说什么，但我认为哪个更有问题的是在哪里得到一个平行的语料库印地语＆lt; - ＆gt;英语。

答案 3 :(得分：-1)

你有一个模糊而广泛的问题。

尝试： http://scholar.google.com/scholar?q=algorithm+language+independent+statistical+word+alignment&hl=en&safe=off&client=firefox-a&hs=hJt&rls=com.ubuntu:en-US:official&um=1&ie=UTF-8&oi=scholart

获取该领域的论文清单。