我有scrapy的问题。 当我使用scrapy spider访问网站时。 20-30分钟后,网站会阻止我的抓取工具。 Scrapy总是返回500个代码。 (DELAY_TIME = 10s)
但如果我停止scrapy并立即开始。它可以正常爬行。我觉得这个网站阻止一个会话可以查看多个页面?
如何在运行时更改scrapy的会话?或者解决这个问题?
答案 0 :(得分:3)
可以有多种方法来解决这种饱和问题。
首先,您应该查看将放置在网站的 root
上的robots.txt文件。确保在本网站上允许刮痧。
只有在网站允许您禁用Cookie时,他们才会在您的设置中尝试COOKIES_ENABLED=False
。大多数网站使用cookie跟踪您的活动。