在抓取网址时是否有可用于构建引荐来源链的scrapy模块。
让我们说,例如,我从http://www.example.com开始抓取,然后转到http://www.new-example.com,然后从http://www.new-example.com转到http://very-new-example.com。
我可以像这样创建一个url链(csv或json文件):
http://www.example.com, http://www.new-example.com
http://www.example.com, http://www.new-example.com, http://very-new-example.com
等等,如果目前没有可用的模块或实现,那么我可以尝试其他选项吗?
答案 0 :(得分:0)
是的,您可以通过创建一个可以通过所有方法访问的全局列表来跟踪引荐。
referral_url_list = []
def call_back1(self, response):
self.referral_url_list.append(response.url)
def call_back1(self, response):
self.referral_url_list.append(response.url)
def call_back1(self, response):
self.referral_url_list.append(response.url)
蜘蛛完成后