我正在尝试读取文本中包含unicode字符(u)和其他标记(\ n,\ u)的文本文件,这是一个示例:
(u' B9781437714227000962',u'定义\ u2014人乳头瘤病毒 (HPV)相关的阴道粘膜增生导致 广泛,全厚度的阴道成熟丧失 上皮\ n'。)
如何在Linux操作系统中使用python3删除这些unicode标签?
答案 0 :(得分:1)
在python3中删除unicode转义序列(或更好:翻译它们):
a.encode('utf-8').decode('unicode_escape')
解码部分会将unicode转义序列转换为相对的unicode字符。不幸的是,这样的(un-)转义对字符串没有用处,所以你需要先对字符串进行编码,然后再解码它。
但正如问题评论中所指出的,您有一个序列化文档。尝试使用正确的工具对其进行反序列化,您将自动同时使用unicode" unescaping"一部分。