网站禁用爬虫后抓取一些链接

时间:2013-04-10 07:26:37

标签: session scrapy web-crawler

我有scrapy的问题。 当我使用scrapy spider访问网站时。 20-30分钟后,网站会阻止我的抓取工具。 Scrapy总是返回500个代码。 (DELAY_TIME = 10s)

但如果我停止scrapy并立即开始。它可以正常爬行。我觉得这个网站阻止一个会话可以查看多个页面?

如何在运行时更改scrapy的会话?或者解决这个问题?

1 个答案:

答案 0 :(得分:3)

可以有多种方法来解决这种饱和问题。

首先,您应该查看将放置在网站的 root 上的robots.txt文件。确保在本网站上允许刮痧。

只有在网站允许您禁用Cookie时,他们才会在您的设置中尝试COOKIES_ENABLED=False。大多数网站使用cookie跟踪您的活动。