urllib编码问题

时间:2012-08-16 13:21:01

标签: python encoding urllib2

我正在开发一个webcrawler来自动下载巴西网站上的一些文档。它使用一些未知的编码(头标记中没有定义字符集)。

只需很少的努力,人们就可以阅读文件。但真正的问题是,列出文档的页面使用包含重音字符的URL的链接。但是,在不知道页面编码的情况下,当我从urllib2.urlopen中检索它时,这些字符都搞砸了。

e.g。 Í字符为Cyrillic capital letter E

我正在使用BeautifulSoup并且由于urllib2已经返回带有错误字符的文档,因此美化不起作用。

还有一件事:soup.originalEncoding会返回None

如何设置urllib2.urlopen以识别字符集或设置“预期编码”,以便返回显示在浏览器上的字符?

1 个答案:

答案 0 :(得分:2)

可以从标题中检索字符集。我会给你我使用的代码,但它来自How to download any(!) webpage with correct charset in python?。并且,他在解释过程方面做得更好。所以,我会指出你。