我正在使用mechanize来解析网站的html,但是在这个网站上我得到了奇怪的结果。
from mechanize import Browser
br = Browser()
r = br.open("http://www.heavenplaza.com")
result = r.read()
结果是我无法理解的。你可以在这里看到:http://paste2.org/p/1556077
任何人都可以通过某种方法获取该网站的HTML?使用mechanize或urllib。
由于
答案 0 :(得分:1)
我快速检查了控制台中的脚本,该网站正在返回废话。您可能需要将您的HTTP用户代理欺骗为该网站认为您不使用机器人的其他内容。
答案 1 :(得分:1)
import urllib2, StringIO, gzip
f = urllib2.urlopen("http://www.heavenplaza.com")
data = StringIO.StringIO(f.read())
gzipper = gzip.GzipFile(fileobj=data)
print gzipper.read()