在网络抓取中过滤重复的请求

时间:2019-10-16 15:03:54

标签: web-scraping scrapy

在scrapy Request中,默认值为dont_filter=False,如果将其设置为True,则表示代码很弱。当Spider会遇到确切的URL请求时(在抓取过程中),该如何处理?除了将响应写入文件然后读取文件(如果存在)之外。

我的蜘蛛运行的项目列表(每个项目都会经过相同的过程),总共有约10万个请求

0 个答案:

没有答案