UTS #18在Unicode正则表达式中描述了Word边界扩展字形群集的语法\b{w}
,但我不太清楚它与\b
语法的区别。在UTS #18中,它说
\ B {瓦特}。 Unicode字边界。请注意,这与\ b单独不同,它对应于\ w和\ W.见附录C:兼容性属性。
那么两种语法之间究竟有什么区别呢?
答案 0 :(得分:4)
\b == \w\W
\W = [^A-Za-z0-9_]
=>它仅处理asci字母数字,而\b{w}
处理UNICODE字符集(即:更广泛的字母数字集)。
您可以看到an emulation of \b{w} here与usual behavior相比较的示例。