对于Scrapy,我们可以获取response.url,response.request.url,但是我们如何知道从哪个父URL中提取出response.url,response.request.url?
谢谢你, 肯
答案 0 :(得分:1)
您可以使用Request.meta来跟踪此类信息。
提出要求时,请在元数据中包含response.url
:
yield response.follow(link, …, meta={'source_url': response.url})
然后在您的解析方法上阅读它:
source_url = response.meta['source_url']
这是最简单的方法,并且您可以使用此方法来跟踪原始URL,即使您愿意,也可以跨不同的解析方法进行跟踪。
否则,您可能要考虑利用redirect_urls
meta key来跟踪重定向跳转。