应用错误收集

我写过一个有start_url的蜘蛛。我的蜘蛛的parse方法会丢弃一些数据并返回FormRequests的列表。

问题来自该帖子请求的响应。它会将我重定向到另一个网站，其中包含一些不相关的GET参数。似乎唯一重要的参数是在标题中张贴的SESSION_ID。不幸的是，Scrapys的行为是一个接一个地执行我的请求，并在队列末尾对重定向响应进行排队。如果所有返回的FormRequests都已执行，则scrapy开始执行所有重定向，这些重定向都返回同一站点。

如何绕过这种行为，以便执行FormRequest，并且对于任何新的FormRequest执行请求响应中返回的重定向？也许有另一种方式，比如强迫网站以某种方式为每个FormRequest获取一个新的SESSION_ID cookie。我愿意接受任何可能解决问题的想法。

处理使用scrapy逐个重定向

1 个答案: