用于数据分析的内容

时间:2012-02-15 10:55:20

标签: hadoop cassandra hbase riak couchbase

我有500GB的非结构化数据。我希望使用它的方法是构建这些数据的多个视图,以便于快速消费。进入系统的任何新数据都应该在其必须的所有视图中编入索引,然后以某种原始格式存储。除此之外,系统应具有特殊查询的能力。这些查询可以花费非常重要的时间来运行。我正在考虑将Cassandra + Hadoop + Hive,HBase,Couchbase和Riak作为我用例的候选者。

更多数据将继续存在,我计划在任何时间点保留系统中最多几TB的数据。

思想?

1 个答案:

答案 0 :(得分:4)

你已经从这个问题中留下了很多重要的细节。决定数据存储时的重要因素大致如下:

  • 我将如何访问您?您提到它是非结构化的并且您希望有许多索引可供您使用,但您省略了一些用例信息。在获取信息时,您是在寻找完整的记录还是只能一次点击一个?文档和键值存储提供完整的记录,而表格数据存储可以提取每行的特定信息位。
  • 您在ACID spectrum概述的频谱中的哪个位置?您是否关心数据的长期可用性?如果没有,像memcached这样的东西可以提供惊人的性能。这可能是最有帮助的,因为大多数现代分布式数据存储已经在这个频谱上占据了一席之地(或者,至少可以通过这种方式或其他方式对其进行优化)。
  • 您希望如何操纵数据?如果MapReduce范例适合您的数据集和计算,那么我肯定会推荐HBase / Cassandra的组合(尽管Cassandra的MapReduce)支持更年轻)和Hadoop。

您提供的信息越多,您/我们的评估就越好。