应用错误收集

在网络抓取中过滤重复的请求

时间：2019-10-16 15:03:54

标签： web-scraping scrapy

在scrapy Request中，默认值为dont_filter=False，如果将其设置为True，则表示代码很弱。当Spider会遇到确切的URL请求时（在抓取过程中），该如何处理？除了将响应写入文件然后读取文件（如果存在）之外。

我的蜘蛛运行的项目列表（每个项目都会经过相同的过程），总共有约10万个请求

0 个答案:

没有答案