我正在使用python和mechanize来刮取使用ISO-8859-1字符集的网站。除此之外,在html中显然特殊的撇号('而不是')显示为’
。我如何编码/解码html,以便这些字符存储在正常的python字符串中或正确显示在正常的python字符串中或编码为utf-8并正确显示unicode字符串?请记住,机械化给我的是<type 'str'>
中的html。我的基本报废代码如下,遗憾的是该网站不公开,我找不到使用该字符集创建可重现示例的公共网站。
cj = cookielib.CookieJar()
mech = mechanize.OpenerFactory().build_opener(mechanize.HTTPCookieProcessor(cj))
request = mechanize.Request(url)
response = mech.open(request)
html = response.read()