使用scrapy的CrawlSpider
,是否有规范方法可以获取规则来自的网页网址。例如,当我在回调方法中解析页面B 时,如果我有从页面A 到页面B 的链接,是否有办法要知道第A页的网址?我更感兴趣的是内置功能,而不是扩展CrawlSPider
类。
答案 0 :(得分:0)
在回调中,您可以使用响应请求标题中的“Referer”标题
def mycallback(self, response):
print "Referer:", response.request.headers.get("Referer")
...
它应该适用于所有蜘蛛。