使用常规Unicode属性

时间:2014-06-23 08:12:40

标签: regex unicode

我正在尝试利用正则表达式功能:\ p {UNICODE PROPERTY NAME}

但是,我正在努力理解这些属性名称的映射。

我直接访问了Unicode.org网站(http://www.unicode.org/Public/UCD/latest/ucd/)并下载了一个文件' UnicodeData.txt'其中列出了catagory ......但这只显示了27,268个字符值。

但我知道utf-8或ucs-2中有65k个字符....所以我很困惑为什么Unicode.org下载只有24k行。

......我在某处错过了一点吗?

我相信我只是对这里简单的事情视而不见......如果有人能帮助我理解......我会感激不尽!

1 个答案:

答案 0 :(得分:2)

到目前为止,一切都很好。您看到的字符是 all ,但是CJK(中日韩)。 Unicode联盟允许那些主UnicodeData文件保持合理的大小。

如果您只想查找单个字符的属性(而不是大量字符),您可以使用为您准备数据的网站,例如GraphemicaFileFormat或(我自己的) Codepoints.net

但是,如果您需要批量查找,Unicode还会将数据提供为具有特定语法的XML file,将代码点组合在一起。这可能是处理数据的最佳选择。