我打算用c ++编写一个网页抓取工具,每天抓取N个网页。主要问题是我对存储系统感到困惑。所以我需要一个分布式数据库,它可以高效地存储我的爬行数据。任何人都可以建议我满足条件吗?
答案 0 :(得分:0)
MongoDB可能非常适合,因为它以直接和高效的方式支持几乎所有需求(包括一个不错的查询API)。通过“Sharding”完成分发。
不要求对数据库进行比较(通常会讨论包括stackoverflow)。
答案 1 :(得分:-1)
除非N非常大,或者您计划存储大量版本,否则您可能不需要分布式数据库。尝试从MySQL开始