python - Python Scrapy - 如何重置连接中爬行？

时间：2018-02-10 03:52:11

标签： python web-scraping scrapy

我在python 3上使用scrapy，而我正在抓取的网站不允许通过robots.txt文件上的蜘蛛登录。此外，在一些请求（32）之后，他们开始阻止我想访问的数据，要求登录。

我需要爬几千页，所以我想知道是否有一种方法可以在一定数量的页面后停止爬行，丢弃连接，等待几秒钟然后重新连接。如果没有，那么最好的办法是处理我的情况吗？

答案 0 :(得分：1)

关于避免robots.txt - 从技术上讲，你可以设置

ROBOTSTXT_OBEY = False

在Settings.py中

。但是，不确定它是否合法是合适的选择。

关于抓取的时间间隔 - 如果您可以共享一段代码，那么它会有所帮助。此外，如果您正在使用任何循环，那么将有一个选项。

Crawler是后端进程和一种类型的报废本身，因此其中一个拇指规则将尊重您的抓取工具所在的网站。有时它也会影响网站的性能。您应该查看此链接以获取更多详细信息 - https://www.scrapehero.com/how-to-prevent-getting-blacklisted-while-scraping/