有没有方法可以将阿拉伯语文档拆分成多个句子。目前我正在使用“。” 句子分裂。
我正在寻找更好的句子分割模型,例如opennlp中可用于英语的模型。
如果您知道任何包裹,请告知我们。
由于
答案 0 :(得分:1)
Unicode Standard Annex #29 Unicode Text Segmentation指定用于确定用户感知的字符,单词和句子之间的默认边界的指南。
ICU通过BreakIterator为UAX#29提供支持。
UAX#29提供的文本分割应该足够简单,例如三击选择句子。