Scrapy为reddit.com返回301

时间:2016-05-29 14:51:06

标签: python scrapy scrape reddit

我正在使用reddit作为学习垃圾的基础。它工作正常一段时间,但现在它总是返回301重定向,即使只是用“scrapy shell www.reddit.com”调用shell。任何想法如何解决这个问题?

2 个答案:

答案 0 :(得分:0)

在网址

中使用https / http方案
scrapy shell https://www.reddit.com

答案 1 :(得分:0)

我认为它与reddit本身有关,因为它似乎阻止了您的IP或用户代理,您需要尝试调整以下内容:  1-在scrapy设置中提高DOWNLOAD_DELAY  2-尝试更改您的用户代理  3-使用代理与scrapy

有关设置的详细信息:http://doc.scrapy.org/en/latest/topics/settings.html

对于scrapy代理: http://doc.scrapy.org/en/latest/topics/downloader-middleware.html