在scrapy项目中,我们可以通过JOBDIR设置定义作业目录来获得持久性支持。
scrapy crawl somespider -s JOBDIR=crawls/somespider-1
但是如果在How to run Scrapy from within a Python script中回答使用python脚本中的scrapy.crawler.CrawlerProcess运行蜘蛛时如何做同样的事情?
答案 0 :(得分:1)
正如您的参考问题所指出的,您可以将设置传递给CrawlerProcess实例。
所以你需要做的就是通过JOBDIR
设置:
import scrapy
from scrapy.crawler import CrawlerProcess
class MySpider(scrapy.Spider):
# Your spider definition
...
process = CrawlerProcess({
'JOBDIR': 'crawls/somespider-1' # <----- Here
})
process.crawl(MySpider)
process.start()