应用错误收集

嘈杂文本语料库中的句子分割和对齐

时间：2013-01-31 12:48:14

标签： alignment nlp corpus text-segmentation giza++

我有一个平行的语料库，其中包含大约100,000个阿拉伯语和波斯语的对齐段落。

我的语料库是一个嘈杂的语料库，其段落是彼此不完整的翻译（即，阿拉伯语段落的部分未翻译成波斯语，并且标点符号也不匹配）。

为了将段落分成句子，我使用了标点符号，但句子数量不匹配。

然后，我使用Microsoft Aligner来对齐句子，但结果确实是错误的。

如何分割和对齐语料库的句子？

1 个答案:

答案 0 :(得分：0)

您在问题中使用过Giza ++标记：您是否使用过那里的对齐工具？我知道很多人使用的另一个选项是Moses，这是一个功能齐全的统计MT包，但我相信如果你真的想要的话，你可以单独调用对齐模型。