使用来自多个AJAX请求的内容抓取网页的最佳方法是什么?看起来我有以下选项(假设AJAX URL已知):
最常见的做法是什么?有没有办法在最后获得单个项目,但允许一些AJAX请求失败而不会损害其余数据?
答案 0 :(得分:1)
scrapy是为了并发和无状态而构建的,所以如果第2点是可能的,那么从速度和内存消耗方面来看,它总是首选。
如果必须序列化请求,请考虑在请求元字段
中累积项目答案 1 :(得分:1)
检查scrapy-inline-requests。它允许在响应处理程序中平滑地处理多个嵌套请求。