我正在处理的HTML文件通常是utf-8但有一些破坏的编码因此无法转换为Unicode。我的想法是将它们解析为二进制,并在第一步中用html代码替换所有正确的utf-8编码。
e.g. "\xc2\xa3" to £
在第二步中,我会用适当的代码替换破碎的编码。
我在第一步陷入困境。替换单个字符与替换:
一起使用string.replace(b'\xc3\x84', b'Ä')
从表中获取代码映射不起作用。在阅读表时,utf-8代码被转义(b'\ xc3 \ x84',我无法找到摆脱双斜线的方法。
我可以想到解决这个问题的一些肮脏的方法但应该有一个干净的方法,不是吗?