标签: regex unicode pcre diacritics word-boundary
在PCRE中non-spacing mark characters导致字边界。因此,Åström字符串有2个\b个位置,Åström(已分解的字符)有6个\b个位置。这是预期的行为还是不正确的实施?
non-spacing mark characters
Åström
\b
Åström