奇怪的自动HTTP重定向(302代码)

时间:2011-12-15 09:35:43

标签: http http-get http-status-code-302

在处理网络抓取工具时,我遇到了涉及以下网页的奇怪事件:http://abudhabitourism.ae/en/

使用wget下载此页面时,将返回状态代码200,一切正常。

但是,当我的抓取程序请求此页面(GET请求)时,服务器似乎返回状态代码302,并在位置标题中显示奇怪的“移动到”字段:

http://sso.adta.ae/opensso/TacCDSSO?localServlet=http%3a%2f%2fabudhabitourism.ae%2f%2fcdsso.ashx&paramName=result&gotoURL=http%3a%2f%2fabudhabitourism.ae%2fen%2fdefault.aspx

这实际上是一个网址还是一个脚本?关于如何在我的爬虫程序中处理这种情况的任何想法(即能够从位置标题中自动提取正确的移动网址)

谢谢, Chiraz BenAbdelkader教授

1 个答案:

答案 0 :(得分:0)

我认为wget遵循302的重定向。当我使用curl获取页面时,它返回带有302的标题和要跟进的URL。

curl -iI http://abudhabitourism.ae/en/