正则表达式与西里尔字母

时间:2013-08-27 16:41:44

标签: javascript jquery regex

我在textarea字段中有一个用于字数统计的jQuery函数。此外,它排除了所有单词,这些单词在[[[tripple bracket]]]中关闭。它适用于拉丁字符,但它有西里尔语句子的问题。我认为错误部分与正则表达式有关:

$(field).val().replace(/\[\[\[[^\]]*\]\]\]/g, '').match(/\b/g);

两种短语的示例: http://jsfiddle.net/A3cEG/2/

我需要统计所有单词,包括cirillic表达式,而不仅仅是拉丁语中的单词。怎么做?

3 个答案:

答案 0 :(得分:36)

JavaScript(至少是最广泛使用的版本)不完全支持Unicode。也就是说,\w仅匹配拉丁字母,十进制数字和下划线([a-zA-Z0-9_]),\b匹配单词字符和非单词字符之间的边界。

要使用拉丁语或西里尔语查找输入字符串中的所有单词,您必须执行以下操作:

.match(/[\wа-я]+/ig); // where а is the Cyrillic а.

或者如果您愿意:

.match(/[\w\u0430-\u044f]+/ig);

当然这可能意味着您需要稍微调整一下代码,因为这里它将匹配所有单词而不是单词边界。请注意,[а-я]here所述的“基本西里尔字母”中的任何字母相匹配。要匹配此范围之外的字母,您可以根据需要修改字符集以包括这些字母,例如要匹配俄语Ё/ё,请使用[а-яё]

另请注意,您的三重括号模式可简化为:

.replace(/\[{3}[^]]*]{3}/g, '')

或者,您可能希望查看XRegExp项目 - 这是一个开源项目,用于向基本JavaScript正则表达式引擎及其Unicode插件添加新功能。

答案 1 :(得分:2)

当心使用西里尔字母的范围,其中可能包含不必要的字符。 防弹正则表达式仅包含西里尔字母:

/^[аАбБвВгГдДеЕёЁжЖзЗиИйЙкКлЛмМнНоОпПрРсСтТуУфФхХцЦчЧшШщЩъЪыЫьЬэЭюЮяЯ]+$/

答案 2 :(得分:0)

您可以添加 / u 标志,该标志允许您使用Unicode。

添加此标志时,您的示例有效。