标签: c++ objective-c unicode utf-8 character-encoding
在正则表达式中,我们可以使用\w来确定字符是单词还是符号。
\w
这是在Xcode中使用正则表达式的测试。
如您所见,它会正确找出不同语言的所有单词。所以我想知道如何实现这一点。
其中一种方法是检查unicode plane中的unicode号码。例如,0x30到0x39是数字,因此它们是单词。 0x02B0到0x02FF是间距修饰符字母,因此它们是符号。
0x30
0x39
0x02B0
0x02FF
但是,如何找出所有其他unicode号码?或者正则表达式如何在纯C ++或ObjC中实现这一点?