我正在观看DataSax Academy上的一个Cassandra视频。他们谈论的一个概念是查询驱动建模。如果您在KillrVideo示例中预先了解您的查询,这是有道理的。
然而,在大数据的情况下,我希望我不是唯一一个认为我们几乎不知道分析师将在未来5个月或一年内对数据进行何种查询的人。
如果是这种情况,存储数据的最佳做法是什么?我的猜测是,对于高级查询此类数据,您最终可能会将数据加载到Spark中。但是在存储时我需要考虑什么才能避免操作上的麻烦和检索时的麻烦?哪种检索方法问题较少?
答案 0 :(得分:0)
Cassandra也是分析用例的数据库,但对于Ad-Hoc Analaytics并不总是如此(只有一个报告,此查询将永远不再执行)。
对于这个用例,hadoop集群是一个更好的选择。 (也许是hadoop上的parquete)如果你看到查询会一遍又一遍地执行,Cassandra就是你的朋友。通常,您可以使用Cassandra来处理50%到70%的用例。使用列键和次要indizies,您可以执行各种各样的查询。转到您的Google Analytics员工,询问他们需要什么。然后:创建你的表:)
答案 1 :(得分:0)
Datastax有一个关于analysis on Cassandra with Apache Spark的课程。