Python Scrapy - 如何重置连接中爬行?

时间:2018-02-10 03:52:11

标签: python web-scraping scrapy

我在python 3上使用scrapy,而我正在抓取的网站不允许通过robots.txt文件上的蜘蛛登录。此外,在一些请求(32)之后,他们开始阻止我想访问的数据,要求登录。

我需要爬几千页,所以我想知道是否有一种方法可以在一定数量的页面后停止爬行,丢弃连接,等待几秒钟然后重新连接。如果没有,那么最好的办法是处理我的情况吗?

1 个答案:

答案 0 :(得分:1)

关于避免robots.txt - 从技术上讲,你可以设置

  

ROBOTSTXT_OBEY = False

在Settings.py中

。但是,不确定它是否合法是合适的选择。

关于抓取的时间间隔 - 如果您可以共享一段代码,那么它会有所帮助。此外,如果您正在使用任何循环,那么将有一个选项。

Crawler是后端进程和一种类型的报废本身,因此其中一个拇指规则将尊重您的抓取工具所在的网站。有时它也会影响网站的性能。您应该查看此链接以获取更多详细信息 - https://www.scrapehero.com/how-to-prevent-getting-blacklisted-while-scraping/