使用unicode字符读取文本文件 - Python3

时间:2018-04-05 16:28:04

标签: linux python-3.x unicode ascii

我正在尝试读取文本中包含unicode字符(u)和其他标记(\ n,\ u)的文本文件,这是一个示例:

  

(u' B9781437714227000962',u'定义\ u2014人乳头瘤病毒   (HPV)相关的阴道粘膜增生导致   广泛,全厚度的阴道成熟丧失   上皮\ n'。)

如何在Linux操作系统中使用python3删除这些unicode标签?

1 个答案:

答案 0 :(得分:1)

在python3中删除unicode转义序列(或更好:翻译它们):

a.encode('utf-8').decode('unicode_escape')

解码部分会将unicode转义序列转换为相对的unicode字符。不幸的是,这样的(un-)转义对字符串没有用处,所以你需要先对字符串进行编码,然后再解码它。

但正如问题评论中所指出的,您有一个序列化文档。尝试使用正确的工具对其进行反序列化,您将自动同时使用unicode" unescaping"一部分。