应用错误收集

存储时间戳数据TB的平台

时间：2011-10-27 13:12:49

标签： bigdata

我们有一个系统可以创建大量数据，最多可达150万条带时间戳的记录，每秒约24MB，或每天约2TB。

数据来自多个来源，并且有多种格式，一个共同点是时间戳。

目前，我们在文件中保存了大约5天的数据，并拥有可生成报告的内部软件。

我们正在考虑创建一个可以保存和查询多年数据的可扩展系统。

我们倾向于像Nathan Marz在How to beat the CAP theorem中所描述的那样，使用Hadoop / ElephantDB进行长期批量存储，使用Storm / Cassandra进行实时图层。

我想知道社区是否可以指出任何替代方案或建议进一步阅读？

我们的数据主要按时间组织的事实是否适用于特定类型的解决方案？

有没有更好的论坛来提出这类问题？

由于

1 个答案:

答案 0 :(得分：0)

同时具有实时访问和可扩展批处理是一个棘手的问题。
虽然没有完美的解决方案，但我会探索以下两项功能： a）Hive，具有按时间划分的分区和由其他键（如客户端ID或类似的东西）的子分区。该解决方案将为您提供：
良好的数据导入性能
汇总报告的良好吞吐量
可能是一个子分区访问的可接受时间。虽然 - 它永远不会是1-2秒。

b）轻快。它是用cassandra取代HDFS的hadoop。它承诺为您提供所需的一切，尽管我希望数据加载性能和批量报告性能不如vanilla hadoop - 因为它专门为它构建。