正则表达式 - 匹配外来字符的正则表达式是什么?

时间:2010-06-09 21:15:18

标签: regex

我正在处理欧洲客户的开发和应用程序,他们有自己的原生字符集。

现在我需要正则表达式允许外国字符如eéèêë等,并且不确定如何做到这一点。

任何建议?

4 个答案:

答案 0 :(得分:14)

如果你想要匹配的是字母(包括“国际”字母),你可以使用\p{L}

您可以找到一些information on regex and Unicode here

答案 1 :(得分:1)

\ p {L}尚未跨浏览器。如果您经常使用它,则从中进行编译将使您的代码code肿不堪。

这是一个简短而甜美的答案,它通常包含不添加成千上万行JavaScript或插件的非ascii字母。用此替换正则表达式中的a-zA-Z0-9或\ w,不要使用u标志:

\ u00BF- \ u1FFF \ u2C00- \ uD7FF \ w

这似乎代替a-zA-Z0-9或\ w插入了我所有的JavaScript正则表达式中。我的背景是识别HTML和CSS中的UTF-8,并且必须跨浏览器。

我简直不敢这么简单,所以经过一天的努力,试图让某些东西在Firefox中工作,我正等待被证明是错误的……

我仅使用带有法国口音的日语平假名对此进行了测试。

答案 2 :(得分:0)

取决于您使用的正则表达式库/编程语言。

答案 3 :(得分:0)

[e\xE8\xE9\xEA\xEB]将匹配eéèêë

中的任何一个