应用错误收集

python无法获取整个网页

时间：2011-07-26 06:43:59

标签： python web-crawler scrapy

我正在开展scrapy项目，以便在http://58.com

上搜集一些数据

我发现当使用scrapy刮掉它时，页面中缺少一些div。

我认为这可能与请求标头有关，所以我将Firefox的用户代理复制到假的，只是发现它失败了。

可能是什么问题，我该如何解决？

我发现问题是网页使用ajax加载一些数据，这是我找不到的数据。

2 个答案:

答案 0 :(得分：1)

使用urllib2，试试这个 req.add_header（'User-Agent'，“Mozilla / 4.0（兼容; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727）”）

我可以传递请求

答案 1 :(得分：0)

有一个名为pycurl的libcurl的python绑定。我使用pycurl模拟人类行为访问网站，它运作良好。对于html解析，beautifulsoup是最好的选择，你可以从你使用pycurl获取的html中轻松获得你想要的内容。