应用错误收集

我是大数据技术堆栈的新手。我正在实施一个实时分析基础设施，它将从我们的微服务后端的不同服务中获取高容量/速度数据。摄取的数据（和数据流）将用于填充关键业务指标以及BI查询和机器学习的仪表板。

所有后端服务都将数据事件写入现已到位的Kafka集群。我开始研究Spark原型来读取Kafka集群中的数据并对其进行丰富/处理。

现在我正在研究静态存储数据的位置。我知道像Vertica和Terradata这样的实时分析技术相当受欢迎。但他们预先进行了非平凡的资本投资。

所以我想坚持开源。经过一番研究后，我决定将HDFS / Impala用于静态数据并在Hadoop上运行SQL以进行实时BI查询。

然后我开始考虑如果不使用HDFS / Impala，使用Cassandra在静止时存储我们的数据更有意义。 Cassandra扩展并具有快速写入和读取。我还阅读了一些文献，其中人们提出了使用C *进行此类使用的良好论据。

欢迎任何评论/反馈。