为静态时间序列数据选择存储层

时间:2016-06-08 21:29:57

标签: hadoop cassandra hdfs impala bigdata

我是大数据技术堆栈的新手。我正在实施一个实时分析基础设施,它将从我们的微服务后端的不同服务中获取高容量/速度数据。摄取的数据(和数据流)将用于填充关键业务指标以及BI查询和机器学习的仪表板。

所有后端服务都将数据事件写入现已到位的Kafka集群。我开始研究Spark原型来读取Kafka集群中的数据并对其进行丰富/处理。

现在我正在研究静态存储数据的位置。我知道像Vertica和Terradata这样的实时分析技术相当受欢迎。但他们预先进行了非平凡的资本投资。

所以我想坚持开源。经过一番研究后,我决定将HDFS / Impala用于静态数据并在Hadoop上运行SQL以进行实时BI查询。

然后我开始考虑如果不使用HDFS / Impala,使用Cassandra在静止时存储我们的数据更有意义。 Cassandra扩展并具有快速写入和读取。我还阅读了一些文献,其中人们提出了使用C *进行此类使用的良好论据。

欢迎任何评论/反馈。

1 个答案:

答案 0 :(得分:3)

我们在Cassandra存储了数PB的到期时间序列数据,我们对它非常满意。在摄取管道中,我们每秒能够进行数百万次写入,并且显示/ BI的读取速度很快(亚毫秒)。对于大型ML任务,您可以在Cassandra上运行spark进行分析。