我的爬虫似乎工作得很慢,不知道为什么。我试着解释它是如何运作的。
请记住我使用内联请求
首先我有31个不同的起始网址。每个网址都是亚马逊的一个类别。 设置:
USER_AGENT = "Mozilla/5.0 (Windows; U; Windows NT 6.1; rv:2.2) Gecko/20110201"
ROBOTSTXT_OBEY = False
CONCURRENT_REQUESTS = 2048
DOWNLOAD_DELAY = 1
CONCURRENT_REQUESTS_PER_DOMAIN = 2048
在我为该页面中的所有项目执行的每个URL上(16项)。
在每个项目上我发送预订scouter sell API的请求并检查卖出价格。
之后我发送预订scouter买入API的请求并检查买入价格(它是一个不同的链接,因此有两个单独的请求,一个买卖一个)。
之后我会产生ISBN,买价和卖价。
现在我检查下一页网址是否为字符串,如果是,则抓取下一页。
我做错了什么或者预计会有什么速度?