我想多次运行相同的蜘蛛,除非我会将每个蜘蛛送到生成器的不同部分,希望它能更快地扫描整个物体。
我一直在考虑做类似的事情:
import scrapy
from scrapy.crawler import CrawlerProcess
class MySpider1(scrapy.Spider):
# Spider definition
process = CrawlerProcess()
process.crawl(MySpider1)
process.crawl(MySpider1)
process.crawl(MySpider1)
process.crawl(MySpider1)
process.crawl(MySpider1)
process.crawl(MySpider1)
process.crawl(MySpider1)
process.crawl(MySpider1)
process.start()
除了我不知道两件事:
如何将参数传递给MySpider1
,以便我可以将每个进程与主发生器的不同部分一起提供。
这会加快这个过程吗?我不确定,因为我不知道这个API的内部架构。为什么孤独的蜘蛛不会使用所有的处理器资源,因为当我运行它时它甚至没有出汗。这个系统的限制资源是什么?我可以一次运行多少蜘蛛?