我需要将文本分成句子。我有图案
(?<=[.!?]|[.!?]['"])(?=\p{javaWhitespace}*\p{javaUpperCase})
。
但是它将Max (v. Village) - programmer.
之类的句子分为Max (v.
和Village) - programmer.
两个句子,但我希望有一个句子。例子太多:
I am Max. I am 19.
-> I am Max.
,_I am 19
She likes him(Dr. Web). Abc.
-> She likes him(Dr. Web).
,_Abc.
不是She likes him(Dr.
,_Web).
,_Abc.
。
我试图完成正则表达式以检查括号序列,但失败了。