等待页面(使用javaScript)加载和抓取html

时间:2016-03-06 16:04:32

标签: php python web-scraping web-crawler urllib2

我想从网页中提取数据,为此,我需要完整的html页面。

import urllib2
req = urllib2.Request('https://www.example.com')
response = urllib2.urlopen(req)
fullhtml = response.read()

我尝试了python库ulrllib2,在运行代码之后,我的fullhtml变量只包含页面的一部分,因为我认为在页面加载后页面的某些元素是用javascript加载的。< / p>

是否有一种等待&#34;整页加载的方法&#34;,我也试过了库&#34; selenium&#34;但我不认为这对我的情况有用。 如果有另一种语言的解决方案(例如php),我愿意改变语言,做到这一点。

感谢您的澄清,对不起我的英语

1 个答案:

答案 0 :(得分:1)

看看这个http://phantomjs.org/。大多数网站都是基于javascript的,php或python无法执行它们。我认为这个图书馆是你能得到的最好的。