应用错误收集

scrapy的无限爬行问题

在example.com/one上有second/third的相对链接，指向example.com/one/second/third。如果example.com/one/second/third也有second/one的相对链接，则会出现无限循环（example.com/one/second/third/second/third/second/third/..../second/third）。我发现阻止这种行为的唯一方法是限制DEPTH_LIMIT。但是，这有限制很长的“下一页”结构的缺点......你知道另一种方法来防止这种无限循环而不限制DEPTH_LIMIT吗？

编辑：蜘蛛使用简单的linkextractor来跟踪链接： self.linkextractor = LinkExtractor(allow_domains=[urlparse(url).netloc])

Scrapy无限循环

0 个答案: