为什么Regex \ b元字符与单词末尾的土耳其字符匹配？

时间：2017-05-21 11:07:52

标签： regex word-boundary

我试图仅使用字符串中的Regex来解析单词。此字符串包含土耳其语字符çğıİöşü。

我尝试了\b[\wçğıİöşü]+\b正则表达式模式，但它并没有完全正常工作。

在上图中，我希望模式完全匹配Behiç和Güneş。但它只能与Behi和Güne匹配，如您所见。匹配Behiç和Güneş的正确模式是什么？

1 个答案:

答案 0 :(得分：1)

您获得的结果是因为Regex101中的默认正则表达式模式是PCRE（PHP），并且支持关闭unicode字符。如果你将味道改为Python（q.v.下面的演示），你会看到你期望的行为。

只需启用对unicode或UTF-8的支持即可解决您的问题。

Demo