Question

对于Scrapy，我们可以获取response.url，response.request.url，但是我们如何知道从哪个父URL中提取出response.url，response.request.url？

谢谢你，肯

Answer 1

您可以使用Request.meta来跟踪此类信息。

提出要求时，请在元数据中包含response.url：

yield response.follow(link, …, meta={'source_url': response.url})

然后在您的解析方法上阅读它：

source_url = response.meta['source_url']

这是最简单的方法，并且您可以使用此方法来跟踪原始URL，即使您愿意，也可以跨不同的解析方法进行跟踪。

否则，您可能要考虑利用redirect_urls meta key来跟踪重定向跳转。