我正在处理爬虫应用程序,我正在使用Redis来保存我的爬虫将要抓取的待处理的urs队列。
有多个节点正在运行,它们从Redis数据库中抓取URL以进行爬网,并且在抓取之后将新的URL(在已爬网的URL页面上找到)再次添加到redis中。我是redis,可以非常快速地插入和选择。
我的数据库大小急剧增长。运行我的爬虫24小时后,我的Redis中有超过1000万个URL(我使用url作为键,其他参数如depth / crawlTime等作为值)。我使用一台机器作为Redis服务器。
我不清楚Redis的性能以及如何在Redis上处理这么多数据?还是应该转移到像MongoDB这样的其他数据库?
我的机器有6 GB Ram。
Alex