我们定期收集系统统计信息,并在每一分钟的一列中以blob(Json)的形式转储到Cassandra中。该表只有一个分区,条目不会超过100K
此表似乎可以根据时间戳转储数据和读取数据。到目前为止,我们很好。
我们计划对系统统计数据进行预测分析,例如每分钟我们将当前统计数据与系统统计数据的历史记录与我们自己的逻辑进行比较(坦率地说,我们还没有完成逻辑)
所以如果我们使用查询
从stattable中选择statisticsjson,timestamp,其中partitionid =' stat'和时间戳> X
返回我们需要的所有Json。
现在如何分析Json数据的历史记录并警告用户系统的当前状态处于危险状态,这是分析这些旧Json数据的最佳工具?
任何建议表示赞赏。
提前致谢
答案 0 :(得分:1)
分析存储在Cassandra中的数据的常用方法是使用apache Spark和spark-cassandra连接器。这通常意味着在每个Cassandra节点上并置Cassandra服务和Spark工作者。这将允许您运行您在Cassandra中无法执行的任何类型的分析(无连接,有限聚合等...)。使用spark,您将能够读取json对象,并且可以并行执行所需的任何转换。
根据您的业务需求,您可以通过编写一个从Cassandra检索数据的简单应用程序(授予它的大小有限)来逃避,并针对此有限的数据集执行分析。