应用错误收集

我正在开发一个webcrawler来自动下载巴西网站上的一些文档。它使用一些未知的编码（头标记中没有定义字符集）。

只需很少的努力，人们就可以阅读文件。但真正的问题是，列出文档的页面使用包含重音字符的URL的链接。但是，在不知道页面编码的情况下，当我从urllib2.urlopen中检索它时，这些字符都搞砸了。

e.g。 Í字符为Cyrillic capital letter E。

我正在使用BeautifulSoup并且由于urllib2已经返回带有错误字符的文档，因此美化不起作用。

还有一件事：soup.originalEncoding会返回None。

如何设置urllib2.urlopen以识别字符集或设置“预期编码”，以便返回显示在浏览器上的字符？