由于中文与英文不同,因此如何将中文段落拆分为句子(使用Python)?中文段落示例为
我是中文一致,如何为我分句呢?我的一致是“先谷歌搜索,再来问问题”,我已经搜索了,但是没找到好的答案。
据我所知
from nltk import tokenize
tokenize.sent_tokenize(paragraph, "chinese")
不起作用,因为tokenize.sent_tokenize()
不支持中文。
我通过Google搜索找到的所有方法都依赖于正则表达式(例如
re.split('(。|!|\!|\.|?|\?)', paragraph_variable)
)。这些方法还不够完善。似乎没有一个正则表达式模式可以用来将中文段落正确地分成句子。我猜应该有一些学习的模式可以完成这项任务。但是,我找不到它们。