标签: ruby regex utf-8
我处理包含希腊语和英语(拉丁语)文本的字符串。我想使用正则表达式来捕获所有包含4个或更多字符的希腊单词。
使用正则表达式手册我发现我可以使用\ p {希腊语}来获取所有希腊词和\ w {4,}以获取4个以上的字符。但是,从我做的各种测试来看,这两者并不一致。
有没有办法用1 regexp表达式做我想做的事情?字符串是UTF-8,来自推文。
此致
答案 0 :(得分:3)
您使用的是UTF-8模式修饰符吗?
/\p{Greek}{4,}/u