我有500GB的非结构化数据。我希望使用它的方法是构建这些数据的多个视图,以便于快速消费。进入系统的任何新数据都应该在其必须的所有视图中编入索引,然后以某种原始格式存储。除此之外,系统应具有特殊查询的能力。这些查询可以花费非常重要的时间来运行。我正在考虑将Cassandra + Hadoop + Hive,HBase,Couchbase和Riak作为我用例的候选者。
更多数据将继续存在,我计划在任何时间点保留系统中最多几TB的数据。
思想?
答案 0 :(得分:4)
你已经从这个问题中留下了很多重要的细节。决定数据存储时的重要因素大致如下:
您提供的信息越多,您/我们的评估就越好。