应用错误收集

我使用scrapy从文件中删除网址列表：

class MySpider(CrawlSpider):
    name = 'some_spider'
    allowed_domains = ['example.com']
    start_urls=open(urls_file).read().splitlines()

    def parse(self, response):
        print response.url

一切正常，除非我停止并继续使用持久队列，Scrapy重新整理整个列表。我的开始和恢复命令：

scrapy crawl some_spider -s JOBDIR=state_dir

我看到scrapy实际上写入状态目录，但requests.seen文件保持为0 KB。我也尝试使用BaseSpider，但结果是相同的

Scrapy在停止和恢复时重新开始网址

0 个答案: