Question

我正在使用Scrapy 0.16.4

我已使用此代码更改下载延迟和用户代理：

DOWNLOAD_DELAY = 2
USER_AGENT = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.22 (KHTML, like Gecko) Chrome/25.0.1364.97 Safari/537.22 AlexaToolbar/alxg-3.1"

我不确定这是否有效，但是，我仍然无法完全抓取该网站的所有网页。它总是给我一个随机的物品。有时，我有13，有时我有30，有时我有52个被刮的物品。

可能是什么问题？

Answer 1

某些网站的每个IP可能存在访问限制。他们很可能不会为不同的用户代理（如chrome，firefox，ie或safari等）累积访问号码，因此您可能会尝试使用动态用户代理池来减轻繁重的访问。 / p>

Here是如何“在Scrapy中使用随机用户代理”的链接

Answer 2

也许该网站使用验证码阻止您，您可以打印response.url并查看您是否获得了引用，尝试将DOWNLOAD_DELAY设置为10，您可以将其设置为蜘蛛并打印网址，如果需要10秒钟才能打印出来。

如何在Scrapy中更改用户代理和延迟时间？

2 个答案: