如何更改scrapy的重复过滤器行为仍然返回一个项目?

时间:2017-04-19 16:42:18

标签: python duplicates scrapy web-crawler

我有以下网址:

BASE-URL | FOLLOW-URL
URL 1 ---> Link to URL 4
URL 2 ---> Link to URL 4
URL 3 ---> Link to URL 5

我正在以下列方式抓取页面:

  1. 我刮掉了BASE-URL上的所有内容。
  2. 我调用一个新的scrapy请求来清除FOLLOW-URL中的所有内容,以便从referer请求中向现有项添加新数据。在 parse_follow 中,我将所有新信息添加到现有项目中:

    yield scrapy.Request(FOLLOW-URL, meta={'item' : item}, callback=self.parse_follow)
    
  3. 由于URL 1和URL 2指向相同的FOLLOW-URL,scrapy会检测重复项并删除其中一个。是否有可能仍然返回 item ,当有副本而不是完全丢弃它时?

0 个答案:

没有答案