Question

我正在尝试解析一个站点（用ASP编写），并且爬虫被重定向到主站点。但我想做的是解析给定的URL，而不是重定向的url。有没有办法做到这一点？。我尝试将“REDIRECT = False”添加到settings.py文件中但没有成功。

以下是抓取工具的一些输出：

2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=500&id=500>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=1513&id=1513>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=476&id=476>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=472&id=472>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=457&id=457>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=1097&id=1097>

Answer 1

http://www.cotodigital.com.ar/l.asp?cat=1097&id=1097重定向到http://www.cotodigital.com.ar/default.asp，因为HTTP响应是这样说的。这是因为asp代码正在检查某些条件 - 错误的页面，cookie，用户代理或引用者。检查上述条件。

更新：只需在浏览器中检查：浏览器也会重定向到主页面，点击“跳过广告”。之后就行了。

这意味着它会设置一些cookie，如果没有它，它会重定向到主页面。

另见Scrapy - how to manage cookies/sessions

Answer 2

原始网址无法删除。它返回302，表示没有正文，Location标题指示重定向到的位置。您需要弄清楚如何在不重定向的情况下访问URL，可能需要通过身份验证。

避免重定向

2 个答案: