Python urllib2解析html问题

时间:2011-08-01 13:42:19

标签: python urllib2 mechanize urllib

我正在使用mechanize来解析网站的html,但是在这个网站上我得到了奇怪的结果。

from mechanize import Browser
br = Browser()
r = br.open("http://www.heavenplaza.com")
result = r.read()

结果是我无法理解的。你可以在这里看到:http://paste2.org/p/1556077

任何人都可以通过某种方法获取该网站的HTML?使用mechanize或urllib。

由于

2 个答案:

答案 0 :(得分:1)

我快速检查了控制台中的脚本,该网站正在返回废话。您可能需要将您的HTTP用户代理欺骗为该网站认为您不使用机器人的其他内容。

http://www.google.com有效

答案 1 :(得分:1)

import urllib2, StringIO, gzip
f = urllib2.urlopen("http://www.heavenplaza.com")
data = StringIO.StringIO(f.read())
gzipper = gzip.GzipFile(fileobj=data)
print gzipper.read()