获取unicode象形图的名称

时间:2015-07-26 09:46:47

标签: python unicode

我正在尝试分析包含这样的unicode象形图的文本流:

 -> 128132 -> Lipstick
 -> 128133 -> Nail Polish
 -> 128139 -> Kiss Mark

我希望能够查找每个字符的名称,例如,每当我遇到字形时,我都想用“UNICODE_LIPSTICK”等字母数字符号替换它。

是否有某个数据文件列出了所有unicode字符及其名称的编号?我正在进行某种映射(最好是一种易于导入的纯文本格式)。这样的数据集是否存在?

我实际上是在Python 3中进行编程,所以如果语言内置了一些可以做到这一点的东西,那就更好了!

1 个答案:

答案 0 :(得分:3)

您可以使用unicodedata.name() function查找官方代码点名称:

>>> import unicodedata
>>> unicodedata.name(chr(128132))
'LIPSTICK'
>>> unicodedata.name(chr(128133))
'NAIL POLISH'
>>> unicodedata.name(chr(128139))
'KISS MARK'