这个正则表达式中这些Unicode字符(代码点)的含义是什么?

时间:2008-10-09 16:09:52

标签: regex unicode diacritics codepoint

我有以下正则表达式: 我想出了大部分内容如下:

ValidationExpression="^[\u0020\u0027\u002C\u002D\u0030-\u0039\u0041-\u005A\u005F\u0061-\u007A\u00C0-\u00FF°./]{1,256}$"

u0020 : SPACE
u0027 : APOSTROPHE
u002C : COMMA
u002D : HYPHEN / MINUS
u0030-\u0039\ : 0-9
u0041-\u005A : A - Z
u005F : UNDERSCORE
u0061-\u007A\ : a - z

u00C0-\u00FF°./ : ??

需要帮助理解验证表达式的最后部分:

u00C0-\u00FF°./

任何人都知道这意味着什么?

6 个答案:

答案 0 :(得分:2)

很奇怪......根据Windows上的人物地图,我会说“À到ÿ”

这些是A,C,E,I,D,N,O,U,Y,德国夏普的一些变化(口音,cedillas)......

答案 1 :(得分:1)

\ u00C0 - \ u00FF是带有重音符号的字母,但不是全部。而“°”只是度数字符。但是,“。/”应该是“\”。允许期间字符。

答案 2 :(得分:1)

您的问题有错误,您需要Unicode codepoints的帮助。您可以查看它们,例如here

它们是Latin1 Supplement的下半部分,包括强调的人声和其他一些角色。见上面的链接。

答案 3 :(得分:0)

使用http://rishida.net/scripts/uniview/conversion.php 我得到了:', - 0-9A-Z_a-zÀ-ÿ

答案 4 :(得分:0)

拆分原始字符串的结果看起来很奇怪,好像你还没理解Unicode转义序列是什么。它应该看起来像:

['aa', ' ', 'b+b', '   ', 'cc(dd! :ee ((ff gg)) hh)', ' ', 'ii', '  ', '']

您可以在Unicode网站上查找这些代码点的含义:

最后三个字符的确代表的是:

  • 度数标志
  • dot / period / full stop
  • 正斜杠

答案 5 :(得分:-2)

它似乎是表ASCII-II中最后两列中显示的字符范围,位于The Extended ASCII Chart的以下链接