标签: python memory-management web-crawler
我有许多用于抓取网页内容的python脚本。他们有不同的开始,停止时间和等待时间,直到下一次爬行。现在我有大约50个爬虫,将来会更多。那么我该如何管理它们以便它们不会占用太多的计算机资源。 目前为1个爬虫我为它做了一个窗口服务,所以它可以独立运行,我也使用time.sleep等待下一次爬行。 我最终为每个爬虫提供了大约30MB的RAM。使用少量爬虫可以,但我认为它不具备可扩展性。 不仅是爬虫,还有计划脚本。 请分享你的想法。