应用错误收集

时间：2014-06-23 08:12:40

标签： regex unicode

我正在尝试利用正则表达式功能：\ p {UNICODE PROPERTY NAME}

但是，我正在努力理解这些属性名称的映射。

我直接访问了Unicode.org网站（http://www.unicode.org/Public/UCD/latest/ucd/）并下载了一个文件＆＃39; UnicodeData.txt＆＃39;其中列出了catagory ......但这只显示了27,268个字符值。

但我知道utf-8或ucs-2中有65k个字符....所以我很困惑为什么Unicode.org下载只有24k行。

......我在某处错过了一点吗？

我相信我只是对这里简单的事情视而不见......如果有人能帮助我理解......我会感激不尽！

答案 0 :(得分：2)

到目前为止，一切都很好。您看到的字符是 all ，但是CJK（中日韩）。 Unicode联盟允许那些主UnicodeData文件保持合理的大小。

如果您只想查找单个字符的属性（而不是大量字符），您可以使用为您准备数据的网站，例如Graphemica，FileFormat或（我自己的） Codepoints.net

但是，如果您需要批量查找，Unicode还会将数据提供为具有特定语法的XML file，将代码点组合在一起。这可能是处理数据的最佳选择。