在Python上废弃网站的html表单

时间:2013-12-17 12:30:20

标签: python html web-scraping

所以我试图废弃一个网站。当我废弃它时,结果与您尝试右键单击并在Mozzila或Google Chrome上查看页面源时的结果不同。

我使用的代码:(示例)

import urllib

page = urllib.urlopen("http://www.google.com/search?q=python") 
#or any other website that uses search
python = page.read()
print python

事实证明,代码只采用了“原始”的webage,这不是我想要的。对于像这样的网站,我希望javascript等运行后的代码。因此,结果与您右键单击并查看浏览器中的源代码相同。 还有其他方法吗?

1 个答案:

答案 0 :(得分:1)

它不完全是原始页面,因为它是从谷歌到您的错误页面: 在print python部分,它在消息顶部显示:

  

您的客户端无权从此服务器获取URL /search?q=python

如果您要将page变量更改为

page = urllib.urlopen("http://volt.al/")

你会看到javascript。

尝试使用不同的页面来查看您喜欢的内容