我有一个包含多个蜘蛛的Scrapy
项目。如何使用自己的jobdir
运行所有蜘蛛程序?我在下面的代码中展示如何使用单个jobdir
执行所有蜘蛛程序。
from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings
settings = get_project_settings()
settings.set('JOBDIR', 'saved_crawl', priority='cmdline')
process = CrawlerProcess(settings)
process.crawl('spider1')
process.crawl('spider2')
process.start()
答案 0 :(得分:0)
好的,我发现解决方案非常简单。我只需要在自定义设置字典中为每个蜘蛛定义JOBDIR
:
class Spider1(scrapy.Spider):
name = 'spider1'
custom_settings = {'JOBDIR': 'crawl_spider1'}