区分Unicode中的符号,数字和字母代码点?

时间:2013-11-18 15:26:37

标签: unicode text-parsing codepoint

Unicode有大量的代码点,我如何检查代码点是一个符号(如“!”或“☭”),一个数字(如“4”或“9”),一个字母(如“ “或”え“)或控制角色(通常不直接显示)?

角色的位置背后是否有任何逻辑,以及它是什么样的角色(与其所属的字母相对),如果没有,是否有任何现有资源可以对哪些范围进行分类?

1 个答案:

答案 0 :(得分:1)

这将通过这些代码点的General Category property来完成。它是规范UnicodeData.txt数据集的一部分,每个严重的与Unicode相关的库都应该有一些方法可以让你获得这个属性。