我有一个平行的语料库,其中包含大约100,000个阿拉伯语和波斯语的对齐段落。
我的语料库是一个嘈杂的语料库,其段落是彼此不完整的翻译(即,阿拉伯语段落的部分未翻译成波斯语,并且标点符号也不匹配)。
为了将段落分成句子,我使用了标点符号,但句子数量不匹配。
然后,我使用Microsoft Aligner来对齐句子,但结果确实是错误的。
如何分割和对齐语料库的句子?
答案 0 :(得分:0)
您在问题中使用过Giza ++标记:您是否使用过那里的对齐工具?我知道很多人使用的另一个选项是Moses,这是一个功能齐全的统计MT包,但我相信如果你真的想要的话,你可以单独调用对齐模型。