让我描述一下蜘蛛的流动: 首先,我提供约300个网址。 Scrapy开始抓取前10个网址(10个可配置吗?) 然后,对于每个网址,都有2个操作:
第一个操作:Spider转到页面上列出的所有项目(48个项目)。
我的Scrapy的深度为20,因此,如果我们进行一些计算,则抓取的页面总数应为:
一次抓取300 * 20 * 48 * 50 = 1440万页。 这是Scrapy能够做到的吗? 我的服务器是8Gb RAM
现在发生的事情是Scrapy丢失了前10个网址,并且再也没有超出这个范围。你们知道为什么会这样吗?