Question

我正在使用mechanize来解析网站的html，但是在这个网站上我得到了奇怪的结果。

from mechanize import Browser
br = Browser()
r = br.open("http://www.heavenplaza.com")
result = r.read()

结果是我无法理解的。你可以在这里看到：http://paste2.org/p/1556077

任何人都可以通过某种方法获取该网站的HTML？使用mechanize或urllib。

由于

Answer 1

我快速检查了控制台中的脚本，该网站正在返回废话。您可能需要将您的HTTP用户代理欺骗为该网站认为您不使用机器人的其他内容。

http://www.google.com有效

Answer 2

import urllib2, StringIO, gzip
f = urllib2.urlopen("http://www.heavenplaza.com")
data = StringIO.StringIO(f.read())
gzipper = gzip.GzipFile(fileobj=data)
print gzipper.read()

Python urllib2解析html问题

2 个答案: