Scrapy请求网址来自哪个网址响应

时间:2019-03-14 09:03:30

标签: scrapy

对于Scrapy,我们可以获取response.url,response.request.url,但是我们如何知道从哪个父URL中提取出response.url,response.request.url?

谢谢你, 肯

1 个答案:

答案 0 :(得分:1)

您可以使用Request.meta来跟踪此类信息。

提出要求时,请在元数据中包含response.url

yield response.follow(link, …, meta={'source_url': response.url})

然后在您的解析方法上阅读它:

source_url = response.meta['source_url']

这是最简单的方法,并且您可以使用此方法来跟踪原始URL,即使您愿意,也可以跨不同的解析方法进行跟踪。

否则,您可能要考虑利用redirect_urls meta key来跟踪重定向跳转。