CrawlSpider在抓取时获取源链接

时间:2013-07-21 20:11:49

标签: python scrapy

使用scrapy的CrawlSpider,是否有规范方法可以获取规则来自的网页网址。例如,当我在回调方法中解析页面B 时,如果我有从页面A 页面B 的链接,是否有办法要知道第A页的网址?我更感兴趣的是内置功能,而不是扩展CrawlSPider类。

1 个答案:

答案 0 :(得分:0)

在回调中,您可以使用响应请求标题中的“Referer”标题

    def mycallback(self, response):
        print "Referer:", response.request.headers.get("Referer")
        ...

它应该适用于所有蜘蛛。