为什么Regex \ b元字符与单词末尾的土耳其字符匹配?

时间:2017-05-21 11:07:52

标签: regex word-boundary

我试图仅使用字符串中的Regex来解析单词。此字符串包含土耳其语字符çğıİöşü

我尝试了\b[\wçğıİöşü]+\b正则表达式模式,但它并没有完全正常工作。

enter image description here

在上图中,我希望模式完全匹配BehiçGüneş。但它只能与BehiGüne匹配,如您所见。匹配BehiçGüneş的正确模式是什么?

1 个答案:

答案 0 :(得分:1)

您获得的结果是因为Regex101中的默认正则表达式模式是PCRE(PHP),并且支持关闭unicode字符。如果你将味道改为Python(q.v.下面的演示),你会看到你期望的行为。

只需启用对unicode或UTF-8的支持即可解决您的问题。

Demo