标签: javascript regex utf-8
我一直在寻找一种方法来处理Javascript中的这些东西。
PHP有一个处理unicode字符的库,它调用Unicode character properties。基于这些模式,可以通过类似preg_match('/^\p{L}+/u', $string)的内容找到UTF-8字母。
preg_match('/^\p{L}+/u', $string)
我怎么能在JS中做到这一点?
答案 0 :(得分:3)
JavaScript唯一的unicode功能是,它允许您将一个字符与\uDDDD匹配,因此如果您需要\P{L},那就没有运气。
\uDDDD
\P{L}
然而,出色的正则表达手册(与正则表达式大师Jan Goyvaert一起)的共同作者Steven Levithan有一个名为XRegExp的备用库,它具有更多功能,包括那些你寻求的人。您可以在RegexBuddy(Jan之前的独立应用)和RegexPal中测试它。
从文档引用:
XRegExp支持匹配Unicode类别,脚本,块和 其他属性通过插件脚本。这些令牌使用匹配 \ p {...},\ P {...}和\ p {^ ...}。
请参阅XRegExp Unicode add-ons。