Question

我正在尝试从此https://www.matchesfashion.com/intl/mens/shop/shoes?page=1网址中抓取所有鞋子数据，以跟随至第7页上的下一个按钮。但是，当我尝试这样做时，我得到的HTTP状态代码未处理或不允许错误

Code Snippet

Error Snippet

Answer 1

在输出中，您将看到它重试了您的请求3次。所有这些请求都从服务器收到了状态码429的响应。该状态码表示服务器拒绝了您的请求，因为您在一定时间内发送了太多请求。

默认情况下，Scrapy配置为忽略这些响应，因为它们将不包含您要查找的数据。

要绕过此操作，请使用诸如scraper API或Crawlera之类的代理。或者，增加scrap_downloads的scrapy直到不再被阻止为止。像这样：

class Website2Spider(scrapy.Spider):
    download_delay = 2 #The number you write here will be how many seconds scrapy waits before sending another request.

Scrapy HTTP状态代码未处理或不允许

1 个答案: