如何将阿拉伯文档分成多个句子

时间:2014-09-11 10:31:31

标签: nlp arabic

有没有方法可以将阿拉伯语文档拆分成多个句子。目前我正在使用“。” 句子分裂。

我正在寻找更好的句子分割模型,例如opennlp中可用于英语的模型。

如果您知道任何包裹,请告知我们。

由于

1 个答案:

答案 0 :(得分:1)

Unicode Standard Annex #29 Unicode Text Segmentation指定用于确定用户感知的字符,单词和句子之间的默认边界的指南。

ICU通过BreakIterator为UAX#29提供支持。

UAX#29提供的文本分割应该足够简单,例如三击选择句子。