应用错误收集

我正在尝试抓取一个网站，我刮掉的每个子链接都返回一个HTTP 301重定向响应，而响应对象中没有数据。

2015-07-18 01:54:52 [scrapy] DEBUG：Crawled（301）http：//website.example> ＆gt;（referer：http://website.example/tutorials/education/）

我已经关闭了scrapy请求中带有meta标签的重定向（meta = {'dont_redirect'：True，'handle_httpstatus_list'：[301]}）。

启用重定向后，301响应会返回与重定向请求相同的网址...

2015-07-18 02:00:52 [scrapy] DEBUG：重定向（301）到http://website.example/tutorials/communications/20364/com-340-entire-course-mass-communication/＆gt;来自http：//website.example/tutorials/communications/20364/com-340-entire-course-mass-communication/>

你能否就如何处理HTTP 301响应以便成功抓取页面给我任何建议？

我尝试打开/关闭重定向中间件并使用匿名代理而没有运气。

Scrapy HTTP Redirect 301问题

0 个答案: