应用错误收集

由于中文与英文不同，因此如何将中文段落拆分为句子（使用Python）？中文段落示例为

我是中文一致，如何为我分句呢？我的一致是“先谷歌搜索，再来问问题”，我已经搜索了，但是没找到好的答案。

据我所知

from nltk import tokenize
tokenize.sent_tokenize(paragraph, "chinese")

不起作用，因为tokenize.sent_tokenize()不支持中文。

我通过Google搜索找到的所有方法都依赖于正则表达式（例如

re.split('(。|！|\!|\.|？|\?)', paragraph_variable)

）。这些方法还不够完善。似乎没有一个正则表达式模式可以用来将中文段落正确地分成句子。我猜应该有一些学习的模式可以完成这项任务。但是，我找不到它们。