应用错误收集

我正在使用python和mechanize来刮取使用ISO-8859-1字符集的网站。除此之外，在html中显然特殊的撇号（'而不是'）显示为。我如何编码/解码html，以便这些字符存储在正常的python字符串中或正确显示在正常的python字符串中或编码为utf-8并正确显示unicode字符串？请记住，机械化给我的是<type 'str'>中的html。我的基本报废代码如下，遗憾的是该网站不公开，我找不到使用该字符集创建可重现示例的公共网站。

cj = cookielib.CookieJar()
mech = mechanize.OpenerFactory().build_opener(mechanize.HTTPCookieProcessor(cj))
request = mechanize.Request(url)
response = mech.open(request)
html = response.read()

使用Mechanize在Python中使用ISO-8859-1字符集

0 个答案: