关于\ b {w} Unicode正则表达式Word边界中的语法

时间:2016-10-27 08:49:48

标签: regex unicode

RL2.2中的

UTS #18在Unicode正则表达式中描述了Word边界扩展字形群集的语法\b{w},但我不太清楚它与\b语法的区别。在UTS #18中,它说

  

\ B {瓦特}。 Unicode字边界。请注意,这与\ b单独不同,它对应于\ w和\ W.见附录C:兼容性属性。

那么两种语法之间究竟有什么区别呢?

1 个答案:

答案 0 :(得分:4)

\b == \w\W

\W = [^A-Za-z0-9_] =>它仅处理asci字母数字,而\b{w}处理UNICODE字符集(即:更广泛的字母数字集)。

您可以看到an emulation of \b{w} hereusual behavior相比较的示例。