Question

我有以下循环来废弃页面

def after_login(self, response):
    i=100000
    while (i<2000000): 
       yield scrapy.Request("https://www.example.com/foobar.php?nr="+str(i),callback=self.another_login)
       i+=1

问题是进程因堆栈溢出而被杀死。有没有办法告诉while循环排队1000个请求以及何时完成排队另一个1000？

Answer 1

你应该玩Scrapy设置。例如，尝试减少CONCURRENT_REQUESTS，添加DOWNLOAD_DELAY。

如果这没有帮助，请查看debugging the memory usage，另请参阅：

Debugging memory leaks

Scrapy堆栈溢出请求

1 个答案: