Question

使用scrapy的CrawlSpider，是否有规范方法可以获取规则来自的网页网址。例如，当我在回调方法中解析页面B 时，如果我有从页面A 到页面B 的链接，是否有办法要知道第A页的网址？我更感兴趣的是内置功能，而不是扩展CrawlSPider类。

Answer 1

在回调中，您可以使用响应请求标题中的“Referer”标题

    def mycallback(self, response):
        print "Referer:", response.request.headers.get("Referer")
        ...

它应该适用于所有蜘蛛。