我想从网页中提取数据,为此,我需要完整的html页面。
import urllib2
req = urllib2.Request('https://www.example.com')
response = urllib2.urlopen(req)
fullhtml = response.read()
我尝试了python库ulrllib2,在运行代码之后,我的fullhtml变量只包含页面的一部分,因为我认为在页面加载后页面的某些元素是用javascript加载的。< / p>
是否有一种等待&#34;整页加载的方法&#34;,我也试过了库&#34; selenium&#34;但我不认为这对我的情况有用。 如果有另一种语言的解决方案(例如php),我愿意改变语言,做到这一点。
感谢您的澄清,对不起我的英语
答案 0 :(得分:1)
看看这个http://phantomjs.org/。大多数网站都是基于javascript的,php或python无法执行它们。我认为这个图书馆是你能得到的最好的。