无法追踪的HTTP重定向?

时间:2016-10-03 18:02:45

标签: javascript python http redirect

我目前正在开展一个项目来跟踪来自多个网站的产品。我使用python scraper检索与列出的产品相关的所有URL,然后定期检查这些URL是否仍然有效。

为此,我使用Python请求模块,运行get请求并查看响应的状态代码。通常我会按预期获得 200 301 302 404 ,但以下情况除外:

http://www.sephora.fr/Parfum/Parfum-Femme/Totem-Orange-Eau-de-Toilette/P2232006

此产品已被删除,在打开链接时(抱歉用法语),我简要地显示了一个占位符页面,说该产品不再可用,然后重定向到主页(www.sephora。 FR)。

奇怪的是,Python仍然会返回 200 状态代码,因此会有各种重定向跟踪器,例如wheregoes.com或redirectdetective.com。最糟糕的是响应URL仍然是原始的,所以我甚至无法追踪它。

使用Chrome DevTools进行分析并保留日志时,我发现在某些时候页面会重新加载。但是,我无法找到答案。

我猜这是通过Javascript在客户端完成的,但我不太确定如何。此外,我真的需要能够从Python中检测到这种变化。

作为参考,这里是指向工作产品的链接:

http://www.sephora.fr/Parfum/Parfum-Femme/Kenzo-Jeu-d-Amour-Eau-de-Parfum/P1894014

任何线索?

谢谢! 路德维希

1 个答案:

答案 0 :(得分:1)

该页面有meta tag,可将页面重定向到根URL:

<meta http-equiv="refresh" content="0; URL=/" />