我正在尝试利用正则表达式功能:\ p {UNICODE PROPERTY NAME}
但是,我正在努力理解这些属性名称的映射。
我直接访问了Unicode.org网站(http://www.unicode.org/Public/UCD/latest/ucd/)并下载了一个文件' UnicodeData.txt'其中列出了catagory ......但这只显示了27,268个字符值。
但我知道utf-8或ucs-2中有65k个字符....所以我很困惑为什么Unicode.org下载只有24k行。
......我在某处错过了一点吗?
我相信我只是对这里简单的事情视而不见......如果有人能帮助我理解......我会感激不尽!
答案 0 :(得分:2)
到目前为止,一切都很好。您看到的字符是 all ,但是CJK(中日韩)。 Unicode联盟允许那些主UnicodeData文件保持合理的大小。
如果您只想查找单个字符的属性(而不是大量字符),您可以使用为您准备数据的网站,例如Graphemica,FileFormat或(我自己的) Codepoints.net
但是,如果您需要批量查找,Unicode还会将数据提供为具有特定语法的XML file,将代码点组合在一起。这可能是处理数据的最佳选择。