在处理网络抓取工具时,我遇到了涉及以下网页的奇怪事件:http://abudhabitourism.ae/en/
使用wget下载此页面时,将返回状态代码200,一切正常。
但是,当我的抓取程序请求此页面(GET请求)时,服务器似乎返回状态代码302,并在位置标题中显示奇怪的“移动到”字段:
这实际上是一个网址还是一个脚本?关于如何在我的爬虫程序中处理这种情况的任何想法(即能够从位置标题中自动提取正确的移动网址)
谢谢, Chiraz BenAbdelkader教授
答案 0 :(得分:0)
我认为wget遵循302的重定向。当我使用curl获取页面时,它返回带有302的标题和要跟进的URL。
curl -iI http://abudhabitourism.ae/en/