应用错误收集

如何避免Spider（网络搜寻器）爬行已经爬行的网站？

时间：2019-06-11 17:06:57

标签： python python-3.x amazon-web-services amazon-s3 scrapy

我正在运行带有某些输入URL的Spider，并将URL保存在S3存储桶中。我将其保存在S3存储桶中的结构是：首先有一个文件夹，其名称为日期（例如-6/11/2019），内部是子文件夹，其网站名称为包含以下内容的子文件夹的名称：该特定网站页面的URL。蜘蛛通常会爬过同一网站并将其保存在S3存储桶中。

因此，我想防止Spider抓取前几天抓取的网站，并且还希望从S3存储桶中删除所有重复的子文件夹。

1 个答案:

答案 0 :(得分：1)

您需要将已爬网页面的列表保存在某处，而不要访问这些页面。您可以直接从S3获得它，也可以从某种形式的持久性存储中获得它，例如Redis或dynamo，甚至是关系数据库。