避免重定向

时间:2011-09-25 00:27:25

标签: python scrapy

我正在尝试解析一个站点(用ASP编写),并且爬虫被重定向到主站点。但我想做的是解析给定的URL,而不是重定向的url。有没有办法做到这一点?。我尝试将“REDIRECT = False”添加到settings.py文件中但没有成功。

以下是抓取工具的一些输出:

2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=500&id=500>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=1513&id=1513>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=476&id=476>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=472&id=472>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=457&id=457>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=1097&id=1097>

2 个答案:

答案 0 :(得分:2)

http://www.cotodigital.com.ar/l.asp?cat=1097&id=1097重定向到http://www.cotodigital.com.ar/default.asp,因为HTTP响应是这样说的。这是因为asp代码正在检查某些条件 - 错误的页面,cookie,用户代理或引用者。检查上述条件。

更新: 只需在浏览器中检查:浏览器也会重定向到主页面,点击“跳过广告”。之后就行了。

这意味着它会设置一些cookie,如果没有它,它会重定向到主页面。

另见Scrapy - how to manage cookies/sessions

答案 1 :(得分:1)

原始网址无法删除。它返回302,表示没有正文,Location标题指示重定向到的位置。您需要弄清楚如何在不重定向的情况下访问URL,可能需要通过身份验证。