我正在尝试从此https://www.matchesfashion.com/intl/mens/shop/shoes?page=1网址中抓取所有鞋子数据,以跟随至第7页上的下一个按钮。但是,当我尝试这样做时,我得到的HTTP状态代码未处理或不允许错误
答案 0 :(得分:1)
在输出中,您将看到它重试了您的请求3次。所有这些请求都从服务器收到了状态码429的响应。该状态码表示服务器拒绝了您的请求,因为您在一定时间内发送了太多请求。
默认情况下,Scrapy配置为忽略这些响应,因为它们将不包含您要查找的数据。
要绕过此操作,请使用诸如scraper API或Crawlera之类的代理。 或者,增加scrap_downloads的scrapy直到不再被阻止为止。像这样:
class Website2Spider(scrapy.Spider):
download_delay = 2 #The number you write here will be how many seconds scrapy waits before sending another request.