在暂停的爬网之后,我想使用启用的JOBDIR选项重新启动爬网,以保留新爬网的状态,但是由于数据已过时,我确实希望擦除先前爬网的状态。
没有开始/停止/继续进行抓取的操作,管理爬网的唯一命令是
scrapy crawl somespider -s JOBDIR=crawls/somespider-1
答案 0 :(得分:0)
如果您打算开始 new 爬网,而不是恢复先前暂停的爬网,则必须删除旧目录或指定新目录:
scrapy crawl somespider -s JOBDIR=crawls/somespider-2
scrapy crawl somespider -s JOBDIR=crawls/somespider-3
...
使用相同的命令进行启动和恢复,但是基于目录名称。因此,如果您指定一个新目录,则将其视为“开始”。如果指定现有目录,则将其视为“恢复”。
您可以通过按Ctrl+C
停止/暂停爬网。请参阅文档:https://docs.scrapy.org/en/latest/topics/jobs.html#how-to-use-it