应用错误收集

网站禁用爬虫后抓取一些链接

时间：2013-04-10 07:26:37

标签： session scrapy web-crawler

我有scrapy的问题。当我使用scrapy spider访问网站时。 20-30分钟后，网站会阻止我的抓取工具。 Scrapy总是返回500个代码。（DELAY_TIME = 10s）

但如果我停止scrapy并立即开始。它可以正常爬行。我觉得这个网站阻止一个会话可以查看多个页面？

如何在运行时更改scrapy的会话？或者解决这个问题？

1 个答案:

答案 0 :(得分：3)

可以有多种方法来解决这种饱和问题。

首先，您应该查看将放置在网站的 root 上的robots.txt文件。确保在本网站上允许刮痧。

只有在网站允许您禁用Cookie时，他们才会在您的设置中尝试COOKIES_ENABLED=False。大多数网站使用cookie跟踪您的活动。