python无法获取整个网页

时间:2011-07-26 06:43:59

标签: python web-crawler scrapy

我正在开展scrapy项目,以便在http://58.com

上搜集一些数据

我发现当使用scrapy刮掉它时,页面中缺少一些div。

我认为这可能与请求标头有关,所以我将Firefox的用户代理复制到假的,只是发现它失败了。

可能是什么问题,我该如何解决?


我发现问题是网页使用ajax加载一些数据,这是我找不到的数据。

2 个答案:

答案 0 :(得分:1)

使用urllib2,试试这个 req.add_header('User-Agent',“Mozilla / 4.0(兼容; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727)”)

我可以传递请求

答案 1 :(得分:0)

有一个名为pycurl的libcurl的python绑定。我使用pycurl模拟人类行为访问网站,它运作良好。对于html解析,beautifulsoup是最好的选择,你可以从你使用pycurl获取的html中轻松获得你想要的内容。