Question

在scrapy项目中，我们可以通过JOBDIR设置定义作业目录来获得持久性支持。

scrapy crawl somespider -s JOBDIR=crawls/somespider-1

但是如果在How to run Scrapy from within a Python script中回答使用python脚本中的scrapy.crawler.CrawlerProcess运行蜘蛛时如何做同样的事情？

Answer 1

正如您的参考问题所指出的，您可以将设置传递给CrawlerProcess实例。

所以你需要做的就是通过JOBDIR设置：

import scrapy
from scrapy.crawler import CrawlerProcess

class MySpider(scrapy.Spider):
    # Your spider definition
    ...

process = CrawlerProcess({
    'JOBDIR': 'crawls/somespider-1'  # <----- Here
})

process.crawl(MySpider)
process.start()

如何从python脚本运行和保存scrapy状态

1 个答案: