我正在开展scrapy项目,以便在http://58.com
上搜集一些数据我发现当使用scrapy刮掉它时,页面中缺少一些div。
我认为这可能与请求标头有关,所以我将Firefox的用户代理复制到假的,只是发现它失败了。
可能是什么问题,我该如何解决?
我发现问题是网页使用ajax加载一些数据,这是我找不到的数据。
答案 0 :(得分:1)
使用urllib2,试试这个 req.add_header('User-Agent',“Mozilla / 4.0(兼容; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727)”)
我可以传递请求
答案 1 :(得分:0)
有一个名为pycurl的libcurl的python绑定。我使用pycurl模拟人类行为访问网站,它运作良好。对于html解析,beautifulsoup是最好的选择,你可以从你使用pycurl获取的html中轻松获得你想要的内容。