Question

我处理包含希腊语和英语（拉丁语）文本的字符串。我想使用正则表达式来捕获所有包含4个或更多字符的希腊单词。

使用正则表达式手册我发现我可以使用\ p {希腊语}来获取所有希腊词和\ w {4，}以获取4个以上的字符。但是，从我做的各种测试来看，这两者并不一致。

有没有办法用1 regexp表达式做我想做的事情？字符串是UTF-8，来自推文。

此致

Answer 1

您使用的是UTF-8模式修饰符吗？

/\p{Greek}{4,}/u