我正在尝试分析包含这样的unicode象形图的文本流:
-> 128132 -> Lipstick
-> 128133 -> Nail Polish
-> 128139 -> Kiss Mark
我希望能够查找每个字符的名称,例如,每当我遇到字形时,我都想用“UNICODE_LIPSTICK”等字母数字符号替换它。
是否有某个数据文件列出了所有unicode字符及其名称的编号?我正在进行某种映射(最好是一种易于导入的纯文本格式)。这样的数据集是否存在?
我实际上是在Python 3中进行编程,所以如果语言内置了一些可以做到这一点的东西,那就更好了!
答案 0 :(得分:3)
您可以使用unicodedata.name()
function查找官方代码点名称:
>>> import unicodedata
>>> unicodedata.name(chr(128132))
'LIPSTICK'
>>> unicodedata.name(chr(128133))
'NAIL POLISH'
>>> unicodedata.name(chr(128139))
'KISS MARK'