Question

在暂停的爬网之后，我想使用启用的JOBDIR选项重新启动爬网，以保留新爬网的状态，但是由于数据已过时，我确实希望擦除先前爬网的状态。

没有开始/停止/继续进行抓取的操作，管理爬网的唯一命令是

scrapy crawl somespider -s JOBDIR=crawls/somespider-1

Answer 1

如果您打算开始 new 爬网，而不是恢复先前暂停的爬网，则必须删除旧目录或指定新目录：

scrapy crawl somespider -s JOBDIR=crawls/somespider-2
scrapy crawl somespider -s JOBDIR=crawls/somespider-3
...

使用相同的命令进行启动和恢复，但是基于目录名称。因此，如果您指定一个新目录，则将其视为“开始”。如果指定现有目录，则将其视为“恢复”。您可以通过按Ctrl+C停止/暂停爬网。请参阅文档：https://docs.scrapy.org/en/latest/topics/jobs.html#how-to-use-it

有没有一种方法可以用干净的jobdir启动a脚的小伙子？

1 个答案: