建立一个网址队列

时间:2009-06-02 02:39:38

标签: url queue web-crawler

哪个更适合在大型网络爬虫中构建URL队列。链接列表或B树?

3 个答案:

答案 0 :(得分:2)

如果您不需要搜索队列(并且通常不需要搜索队列),那么就是链接列表。

答案 1 :(得分:1)

如果订单很重要(和队列是),那么链接列表。如果你需要搜索队列,那么B-tree。

答案 2 :(得分:1)

如果您正在构建大型爬虫,您几乎肯定希望使用类似AMQP消息队列的东西,很可能是RabbitMQ。 RabbitMQ(和许多其他类似的MQ)将通过非常正常的安装每秒进行100,000次以上的事务。我在自己的蜘蛛/爬虫设置中使用它,它就像一个魅力。当然比从头开始构建类似的东西要容易得多。