我使用scrapy从文件中删除网址列表:
class MySpider(CrawlSpider):
name = 'some_spider'
allowed_domains = ['example.com']
start_urls=open(urls_file).read().splitlines()
def parse(self, response):
print response.url
一切正常,除非我停止并继续使用持久队列,Scrapy重新整理整个列表。我的开始和恢复命令:
scrapy crawl some_spider -s JOBDIR=state_dir
我看到scrapy实际上写入状态目录,但requests.seen
文件保持为0 KB。我也尝试使用BaseSpider
,但结果是相同的