是否有一个通用(非)单词正则表达式,涵盖了地球上所有字符的突变?我正在开发一个应该处理所有语言的应用程序。 从技术上讲,我想用文字来分割句子。用非字符(\ W)拆分它们也会被'ä'拆分。 static workaround不是一个选项,因为并且明确地涵盖了这个世界上的所有突变(éçḮñ以及数千个)是不可能的。
答案 0 :(得分:2)
我不能给你一些适用于所有语言的东西,因为我不知道足够的语言来判断是否会有边缘情况。
我的建议:
\s+
)。^\p{P}+|\p{P}+$
替换为空 - QRegularExpression docs表示它完全支持Unicode,因此希望这可行) 除非您关注在This is Charles' car
等示例中保留标点符号,否则在不删除it's
或Marne-sur-Seine
等字词中的标点符号的情况下,这应该会有很长的路要走。