scrapy的无限爬行问题
在example.com/one
上有second/third
的相对链接,指向example.com/one/second/third
。如果example.com/one/second/third
也有second/one
的相对链接,则会出现无限循环(example.com/one/second/third/second/third/second/third/..../second/third
)。我发现阻止这种行为的唯一方法是限制DEPTH_LIMIT。
但是,这有限制很长的“下一页”结构的缺点......你知道另一种方法来防止这种无限循环而不限制DEPTH_LIMIT吗?
编辑:
蜘蛛使用简单的linkextractor来跟踪链接:
self.linkextractor = LinkExtractor(allow_domains=[urlparse(url).netloc])