Java 6 RegEx匹配Unicode的字母和标记类别中的所有字符

时间:2012-05-28 03:35:06

标签: java regex unicode

我需要从字符串中删除所有非字母和标记(Unicode类别)字符。目前我正在拆分并随后加入一个字符串,如下所示:

text.split("[\\p{P} \\t\\n\\r]")

然而,我的RegEx严重不足。请帮忙。

修改 我认为这会奏效:

text.split("[\\P{M}\\P{L}]")

1 个答案:

答案 0 :(得分:3)

试试这个:

text = text.replaceAll("[^\\p{L}\\p{M}]", "");

http://www.regular-expressions.info/unicode.html

中查看详情