应用错误收集

爬虫存储系统所需的建议

时间：2011-03-20 15:08:08

标签： c++ mongodb hbase hypertable

我打算用c ++编写一个网页抓取工具，每天抓取N个网页。主要问题是我对存储系统感到困惑。所以我需要一个分布式数据库，它可以高效地存储我的爬行数据。任何人都可以建议我满足条件吗？

2 个答案:

答案 0 :(得分：0)

MongoDB可能非常适合，因为它以直接和高效的方式支持几乎所有需求（包括一个不错的查询API）。通过“Sharding”完成分发。

不要求对数据库进行比较（通常会讨论包括stackoverflow）。

答案 1 :(得分：-1)

除非N非常大，或者您计划存储大量版本，否则您可能不需要分布式数据库。尝试从MySQL开始