cawler:html文件编码问题

时间:2016-03-10 08:59:36

标签: character-encoding web-crawler

我尝试编写一个抓取工具来获取一些信息。但我发现这个词在网页来源中是不同的。例如,Möller这个词是 Mö ller 在html文件中。 我想知道在获得html文件后如何恢复它。

1 个答案:

答案 0 :(得分:0)

解决了这个问题并提供答案以防一些初学者遇到同样的问题。 我使用chr()替换错误的代码,例如使用chr(246)代替ö 如果有更好的解决方案,请告诉我。