永久存储访问过的链接,以免明天访问

时间:2018-07-27 12:04:18

标签: python-3.x scrapy

我是Scrapy的新手。我想知道如何永久保存访问的链接。我的意思是保存今天访问的链接,以免明天访问它们。

我在想什么

我想将每个访问的链接保存到CSV文件中,并在抓取任何链接之前检查它。

2 个答案:

答案 0 :(得分:0)

如果我建议的话,另一种不错的选择是使用永久静态缓存,可以使用以下设置在scrapy上对其进行配置:

HTTPCACHE_ENABLED=True
HTTPCACHE_POLICY='scrapy.extensions.httpcache.DummyPolicy'
HTTPCACHE_EXPIRATION_SECS=0 # 0 instructs for cache to never expire

通过这种方式,您可以轻松调试蜘蛛程序并重新构建项目,而无需重新下载页面,以防您以任何方式修改页面解析器或项目模式。

如果您最终还是要维护一个csv文件,那么官方python文档就有很好的例子: https://docs.python.org/3/library/csv.html#examples

答案 1 :(得分:0)

您可以通过设置作业目录来临时执行此操作,在该目录中将保留爬网状态(计划的请求,已访问的请求...)。参见https://doc.scrapy.org/en/latest/topics/jobs.html