Question

我想从网页中提取数据，为此，我需要完整的html页面。

import urllib2
req = urllib2.Request('https://www.example.com')
response = urllib2.urlopen(req)
fullhtml = response.read()

我尝试了python库ulrllib2，在运行代码之后，我的fullhtml变量只包含页面的一部分，因为我认为在页面加载后页面的某些元素是用javascript加载的。< / p>

是否有一种等待＆＃34;整页加载的方法＆＃34;，我也试过了库＆＃34; selenium＆＃34;但我不认为这对我的情况有用。如果有另一种语言的解决方案（例如php），我愿意改变语言，做到这一点。

感谢您的澄清，对不起我的英语

Answer 1

看看这个http://phantomjs.org/。大多数网站都是基于javascript的，php或python无法执行它们。我认为这个图书馆是你能得到的最好的。