哪个更适合在大型网络爬虫中构建URL队列。链接列表或B树?
答案 0 :(得分:2)
如果您不需要搜索队列(并且通常不需要搜索队列),那么就是链接列表。
答案 1 :(得分:1)
如果订单很重要(和队列是),那么链接列表。如果你需要搜索队列,那么B-tree。
答案 2 :(得分:1)
如果您正在构建大型爬虫,您几乎肯定希望使用类似AMQP消息队列的东西,很可能是RabbitMQ。 RabbitMQ(和许多其他类似的MQ)将通过非常正常的安装每秒进行100,000次以上的事务。我在自己的蜘蛛/爬虫设置中使用它,它就像一个魅力。当然比从头开始构建类似的东西要容易得多。