Question

文本文件包含

之类的内容

＆＃34;长度：根据客户需要| \ u2022材料：CFC | \ u2022＆＃34;

我试图将其转换为字符。如何阅读，将其转换为字符并保存回来。

screenshot

Answer 1

总的来说，有些东西是

uni_chr_re = re.compile(r'\\u([a-fA-F0-9]{4})')

lines = []
with open(filename) as f:
    for line in f:
        lines.append(uni_chr_re.sub(lambda m: unichr(int(m.group(1), 16)), line))

这是一般方法，但细节取决于详细信息，例如文本的来源，如Martijn pointed out。

如何使用python修复包含字符\ u2014，\ u2017等的文本文件？

1 个答案: