我目前正在开展一个项目来跟踪来自多个网站的产品。我使用python scraper检索与列出的产品相关的所有URL,然后定期检查这些URL是否仍然有效。
为此,我使用Python请求模块,运行get请求并查看响应的状态代码。通常我会按预期获得 200 , 301 , 302 或 404 ,但以下情况除外:
http://www.sephora.fr/Parfum/Parfum-Femme/Totem-Orange-Eau-de-Toilette/P2232006
此产品已被删除,在打开链接时(抱歉用法语),我简要地显示了一个占位符页面,说该产品不再可用,然后重定向到主页(www.sephora。 FR)。
奇怪的是,Python仍然会返回 200 状态代码,因此会有各种重定向跟踪器,例如wheregoes.com或redirectdetective.com。最糟糕的是响应URL仍然是原始的,所以我甚至无法追踪它。
使用Chrome DevTools进行分析并保留日志时,我发现在某些时候页面会重新加载。但是,我无法找到答案。
我猜这是通过Javascript在客户端完成的,但我不太确定如何。此外,我真的需要能够从Python中检测到这种变化。
作为参考,这里是指向工作产品的链接:
http://www.sephora.fr/Parfum/Parfum-Femme/Kenzo-Jeu-d-Amour-Eau-de-Parfum/P1894014
任何线索?
谢谢! 路德维希