我有以下网址:
BASE-URL | FOLLOW-URL
URL 1 ---> Link to URL 4
URL 2 ---> Link to URL 4
URL 3 ---> Link to URL 5
我正在以下列方式抓取页面:
我调用一个新的scrapy请求来清除FOLLOW-URL中的所有内容,以便从referer请求中向现有项添加新数据。在 parse_follow 中,我将所有新信息添加到现有项目中:
yield scrapy.Request(FOLLOW-URL, meta={'item' : item}, callback=self.parse_follow)
由于URL 1和URL 2指向相同的FOLLOW-URL,scrapy会检测重复项并删除其中一个。是否有可能仍然返回 item ,当有副本而不是完全丢弃它时?