Scrapy在大量网址上突然关闭

时间:2018-12-18 12:55:10

标签: scrapy

让我描述一下蜘蛛的流动: 首先,我提供约300个网址。 Scrapy开始抓取前10个网址(10个可配置吗?) 然后,对于每个网址,都有2个操作:

  • 第一个操作:Spider转到页面上列出的所有项目(48个项目)。

    • 对于每个项目,我都会抓取所有分页。它最多可以反馈该项目的50或更多反馈,并将其存储在Postgres中。
  • 第二步:Spider获取下一页并再次执行相同的例程

我的Scrapy的深度为20,因此,如果我们进行一些计算,则抓取的页面总数应为:

一次抓取

300 * 20 * 48 * 50 = 1440万页。 这是Scrapy能够做到的吗? 我的服务器是8Gb RAM

现在发生的事情是Scrapy丢失了前10个网址,并且再也没有超出这个范围。你们知道为什么会这样吗?

0 个答案:

没有答案