Scrapy无限循环

时间:2018-02-04 11:25:30

标签: python scrapy

scrapy的无限爬行问题

example.com/one上有second/third的相对链接,指向example.com/one/second/third。如果example.com/one/second/third也有second/one的相对链接,则会出现无限循环(example.com/one/second/third/second/third/second/third/..../second/third)。我发现阻止这种行为的唯一方法是限制DEPTH_LIMIT。 但是,这有限制很长的“下一页”结构的缺点......你知道另一种方法来防止这种无限循环而不限制DEPTH_LIMIT吗?

编辑: 蜘蛛使用简单的linkextractor来跟踪链接: self.linkextractor = LinkExtractor(allow_domains=[urlparse(url).netloc])

0 个答案:

没有答案