我正在尝试解析一个站点(用ASP编写),并且爬虫被重定向到主站点。但我想做的是解析给定的URL,而不是重定向的url。有没有办法做到这一点?。我尝试将“REDIRECT = False”添加到settings.py文件中但没有成功。
以下是抓取工具的一些输出:
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=500&id=500>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=1513&id=1513>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=476&id=476>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=472&id=472>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=457&id=457>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=1097&id=1097>
答案 0 :(得分:2)
http://www.cotodigital.com.ar/l.asp?cat=1097&id=1097
重定向到http://www.cotodigital.com.ar/default.asp
,因为HTTP响应是这样说的。这是因为asp代码正在检查某些条件 - 错误的页面,cookie,用户代理或引用者。检查上述条件。
更新: 只需在浏览器中检查:浏览器也会重定向到主页面,点击“跳过广告”。之后就行了。
这意味着它会设置一些cookie,如果没有它,它会重定向到主页面。
答案 1 :(得分:1)
原始网址无法删除。它返回302,表示没有正文,Location标题指示重定向到的位置。您需要弄清楚如何在不重定向的情况下访问URL,可能需要通过身份验证。