使用Scrapy将来自多个AJAX请求的数据合并到一个项目中

时间:2013-12-19 23:18:35

标签: scrapy

使用来自多个AJAX请求的内容抓取网页的最佳方法是什么?看起来我有以下选项(假设AJAX URL已知):

  1. 抓取AJAX网址,按顺序在请求之间传递相同的项目
  2. 同时抓取AJAX网址并将每个部分输出为单独的项目     使用共享密钥(例如源URL)
  3. 最常见的做法是什么?有没有办法在最后获得单个项目,但允许一些AJAX请求失败而不会损害其余数据?

2 个答案:

答案 0 :(得分:1)

scrapy是为了并发和无状态而构建的,所以如果第2点是可能的,那么从速度和内存消耗方面来看,它总是首选。

如果必须序列化请求,请考虑在请求元字段

中累积项目

答案 1 :(得分:1)

检查scrapy-inline-requests。它允许在响应处理程序中平滑地处理多个嵌套请求。