Question

我正在尝试读取文本中包含unicode字符（u）和其他标记（\ n，\ u）的文本文件，这是一个示例：

（u＆＃39; B9781437714227000962＆＃39;，u＆＃39;定义\ u2014人乳头瘤病毒（HPV）相关的阴道粘膜增生导致广泛，全厚度的阴道成熟丧失上皮\ n＆＃39;。）

如何在Linux操作系统中使用python3删除这些unicode标签？

Answer 1

在python3中删除unicode转义序列（或更好：翻译它们）：

a.encode('utf-8').decode('unicode_escape')

解码部分会将unicode转义序列转换为相对的unicode字符。不幸的是，这样的（un-）转义对字符串没有用处，所以你需要先对字符串进行编码，然后再解码它。

但正如问题评论中所指出的，您有一个序列化文档。尝试使用正确的工具对其进行反序列化，您将自动同时使用unicode＆＃34; unescaping＆＃34;一部分。