我将旧Wordpress博客中的内容移植到Mezzanine。我被给了一个数据库的json转储,帖子里面堆满了这样的特殊字符:\x96
其他未转义的html。
如果我手动replace
使用&#
的斜杠并附加分号,则字符呈现正确
所以\x96
到–
将UTF-8(十六进制)转义为HTML实体(十六进制)
如何在Python中执行此操作?
答案 0 :(得分:1)
如果–
也可以接受,您可以使用:
>>> u'\x96'.encode('ascii', 'xmlcharrefreplace')
'–'
甚至在documentation 1 中被召唤出来。
1 (虽然不是很清楚)......