Question

我是Scrapy的新手。我想知道如何永久保存访问的链接。我的意思是保存今天访问的链接，以免明天访问它们。

我想将每个访问的链接保存到CSV文件中，并在抓取任何链接之前检查它。

Answer 1

如果我建议的话，另一种不错的选择是使用永久静态缓存，可以使用以下设置在scrapy上对其进行配置：

HTTPCACHE_ENABLED=True
HTTPCACHE_POLICY='scrapy.extensions.httpcache.DummyPolicy'
HTTPCACHE_EXPIRATION_SECS=0 # 0 instructs for cache to never expire

通过这种方式，您可以轻松调试蜘蛛程序并重新构建项目，而无需重新下载页面，以防您以任何方式修改页面解析器或项目模式。

如果您最终还是要维护一个csv文件，那么官方python文档就有很好的例子： https://docs.python.org/3/library/csv.html#examples

Answer 2

您可以通过设置作业目录来临时执行此操作，在该目录中将保留爬网状态（计划的请求，已访问的请求...）。参见https://doc.scrapy.org/en/latest/topics/jobs.html。