我正在尝试抓取一个网站,我刮掉的每个子链接都返回一个HTTP 301重定向响应,而响应对象中没有数据。
2015-07-18 01:54:52 [scrapy] DEBUG:Crawled(301)http://website.example> >(referer:http://website.example/tutorials/education/)
我已经关闭了scrapy请求中带有meta标签的重定向(meta = {'dont_redirect':True,'handle_httpstatus_list':[301]})。
启用重定向后,301响应会返回与重定向请求相同的网址...
2015-07-18 02:00:52 [scrapy] DEBUG:重定向(301)到http://website.example/tutorials/communications/20364/com-340-entire-course-mass-communication/>来自http://website.example/tutorials/communications/20364/com-340-entire-course-mass-communication/>
你能否就如何处理HTTP 301响应以便成功抓取页面给我任何建议?
我尝试打开/关闭重定向中间件并使用匿名代理而没有运气。