使用Mechanize在Python中使用ISO-8859-1字符集

时间:2014-01-28 23:30:13

标签: python string utf-8 mechanize iso-8859-1

我正在使用python和mechanize来刮取使用ISO-8859-1字符集的网站。除此之外,在html中显然特殊的撇号('而不是')显示为&#146;。我如何编码/解码html,以便这些字符存储在正常的python字符串中或正确显示在正常的python字符串中或编码为utf-8并正确显示unicode字符串?请记住,机械化给我的是<type 'str'>中的html。我的基本报废代码如下,遗憾的是该网站不公开,我找不到使用该字符集创建可重现示例的公共网站。

cj = cookielib.CookieJar()
mech = mechanize.OpenerFactory().build_opener(mechanize.HTTPCookieProcessor(cj))
request = mechanize.Request(url)
response = mech.open(request)
html = response.read()

0 个答案:

没有答案