如何在Scrapy中更改用户代理和延迟时间?

时间:2013-02-28 10:28:56

标签: python scrapy

我正在使用Scrapy 0.16.4

我已使用此代码更改下载延迟和用户代理:

DOWNLOAD_DELAY = 2
USER_AGENT = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.22 (KHTML, like Gecko) Chrome/25.0.1364.97 Safari/537.22 AlexaToolbar/alxg-3.1"

我不确定这是否有效,但是,我仍然无法完全抓取该网站的所有网页。它总是给我一个随机的物品。有时,我有13,有时我有30,有时我有52个被刮的物品。

可能是什么问题?

2 个答案:

答案 0 :(得分:4)

某些网站的每个IP可能存在访问限制。他们很可能不会为不同的用户代理(如chrome,firefox,ie或safari等)累积访问号码,因此您可能会尝试使用动态用户代理池来减轻繁重的访问。 / p>

Here是如何“在Scrapy中使用随机用户代理”的链接

答案 1 :(得分:0)

也许该网站使用验证码阻止您,您可以打印response.url并查看您是否获得了引用,尝试将DOWNLOAD_DELAY设置为10,您可以将其设置为蜘蛛并打印网址,如果需要10秒钟才能打印出来。