如何从python脚本运行和保存scrapy状态

时间:2018-05-03 06:10:29

标签: python python-2.7 web-scraping scrapy scrapy-spider

在scrapy项目中,我们可以通过JOBDIR设置定义作业目录来获得持久性支持。

scrapy crawl somespider -s JOBDIR=crawls/somespider-1

但是如果在How to run Scrapy from within a Python script中回答使用python脚本中的scrapy.crawler.CrawlerProcess运行蜘蛛时如何做同样的事情?

1 个答案:

答案 0 :(得分:1)

正如您的参考问题所指出的,您可以将设置传递给CrawlerProcess实例。

所以你需要做的就是通过JOBDIR设置:

import scrapy
from scrapy.crawler import CrawlerProcess

class MySpider(scrapy.Spider):
    # Your spider definition
    ...

process = CrawlerProcess({
    'JOBDIR': 'crawls/somespider-1'  # <----- Here
})

process.crawl(MySpider)
process.start()