Scrapy:每个蜘蛛一个jobdir

时间:2019-05-16 12:53:28

标签: web-scraping scrapy

我有一个包含多个蜘蛛的Scrapy项目。如何使用自己的jobdir运行所有蜘蛛程序?我在下面的代码中展示如何使用单个jobdir执行所有蜘蛛程序。

from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings

settings = get_project_settings()
settings.set('JOBDIR', 'saved_crawl', priority='cmdline')


process = CrawlerProcess(settings)

process.crawl('spider1')
process.crawl('spider2')
process.start()

1 个答案:

答案 0 :(得分:0)

好的,我发现解决方案非常简单。我只需要在自定义设置字典中为每个蜘蛛定义JOBDIR

class Spider1(scrapy.Spider):
    name = 'spider1'
    custom_settings = {'JOBDIR': 'crawl_spider1'}