如何使用python修复包含字符\ u2014,\ u2017等的文本文件?

时间:2017-10-21 12:37:10

标签: python encoding character-encoding

文本文件包含

之类的内容
  

"长度:根据客户需要| \ u2022材料:CFC | \ u2022"

我试图将其转换为字符。如何阅读,将其转换为字符并保存回来。

screenshot

1 个答案:

答案 0 :(得分:2)

总的来说,有些东西是

uni_chr_re = re.compile(r'\\u([a-fA-F0-9]{4})')

lines = []
with open(filename) as f:
    for line in f:
        lines.append(uni_chr_re.sub(lambda m: unichr(int(m.group(1), 16)), line))

这是一般方法,但细节取决于详细信息,例如文本的来源,如Martijn pointed out