如何避免Spider(网络搜寻器)爬行已经爬行的网站?

时间:2019-06-11 17:06:57

标签: python python-3.x amazon-web-services amazon-s3 scrapy

我正在运行带有某些输入URL的Spider,并将URL保存在S3存储桶中。我将其保存在S3存储桶中的结构是:首先有一个文件夹,其名称为日期(例如-6/11/2019),内部是子文件夹,其网站名称为包含以下内容的子文件夹的名称:该特定网站页面的URL。蜘蛛通常会爬过同一网站并将其保存在S3存储桶中。

因此,我想防止Spider抓取前几天抓取的网站,并且还希望从S3存储桶中删除所有重复的子文件夹。

1 个答案:

答案 0 :(得分:1)

您需要将已爬网页面的列表保存在某处,而不要访问这些页面。您可以直接从S3获得它,也可以从某种形式的持久性存储中获得它,例如Redis或dynamo,甚至是关系数据库。