爬虫存储系统所需的建议

时间:2011-03-20 15:08:08

标签: c++ mongodb hbase hypertable

我打算用c ++编写一个网页抓取工具,每天抓取N个网页。主要问题是我对存储系统感到困惑。所以我需要一个分布式数据库,它可以高效地存储我的爬行数据。任何人都可以建议我满足条件吗?

2 个答案:

答案 0 :(得分:0)

MongoDB可能非常适合,因为它以直接和高效的方式支持几乎所有需求(包括一个不错的查询API)。通过“Sharding”完成分发。

不要求对数据库进行比较(通常会讨论包括stackoverflow)。

答案 1 :(得分:-1)

除非N非常大,或者您计划存储大量版本,否则您可能不需要分布式数据库。尝试从MySQL开始