我的requests.seen文件中的一些示例值是
f4e2f84g6g987t69896gg83552ccb8c36bdff296
ccb8c36bdff29651d3080c9644b117364de75cd7
9ec11d5f1a4cda70af990ad40843615a5f1a4cda
我知道他们是我抓取的网址的代表。如何将这些值转换为URLS?或者更好的是,我如何将URL转换为等效表示并检查它是否在requests.seen文件中?
答案 0 :(得分:1)
查看请求指纹功能 https://github.com/scrapy/scrapy/blob/master/scrapy/utils/request.py
请求指纹是唯一标识资源的哈希 请求指向
使用示例redis dupefilter:
def request_seen(self, request):
fp = request_fingerprint(request)
added = self.server.sadd(self.key, fp)
return not added