Scrapy中的requests.seen文件中存储的值是什么?

时间:2013-12-06 02:16:24

标签: python django web-crawler scrapy

我的requests.seen文件中的一些示例值是

f4e2f84g6g987t69896gg83552ccb8c36bdff296

ccb8c36bdff29651d3080c9644b117364de75cd7

9ec11d5f1a4cda70af990ad40843615a5f1a4cda

我知道他们是我抓取的网址的代表。如何将这些值转换为URLS?或者更好的是,我如何将URL转换为等效表示并检查它是否在requests.seen文件中?

1 个答案:

答案 0 :(得分:1)

查看请求指纹功能 https://github.com/scrapy/scrapy/blob/master/scrapy/utils/request.py

  

请求指纹是唯一标识资源的哈希       请求指向

使用示例redis dupefilter

def request_seen(self, request):
    fp = request_fingerprint(request)
    added = self.server.sadd(self.key, fp)
    return not added