有没有一种方法可以用干净的jobdir启动a脚的小伙子?

时间:2019-02-12 17:08:26

标签: python-2.7 scrapy scrapy-spider

在暂停的爬网之后,我想使用启用的JOBDIR选项重新启动爬网,以保留新爬网的状态,但是由于数据已过时,我确实希望擦除先前爬网的状态。

没有开始/停止/继续进行抓取的操作,管理爬网的唯一命令是

scrapy crawl somespider -s JOBDIR=crawls/somespider-1

1 个答案:

答案 0 :(得分:0)

如果您打算开始 new 爬网,而不是恢复先前暂停的爬网,则必须删除旧目录或指定新目录:

scrapy crawl somespider -s JOBDIR=crawls/somespider-2
scrapy crawl somespider -s JOBDIR=crawls/somespider-3
...

使用相同的命令进行启动和恢复,但是基于目录名称。因此,如果您指定一个新目录,则将其视为“开始”。如果指定现有目录,则将其视为“恢复”。 您可以通过按Ctrl+C停止/暂停爬网。请参阅文档:https://docs.scrapy.org/en/latest/topics/jobs.html#how-to-use-it