不确定问题的标题是否听起来很疯狂,但我想到了这一点,我想检查一下我想象的专业人士和骗子的“有效性”。
“生产”中的理想C *查询仅针对一个分区,可能对群集密钥有其他限制。应该考虑到这一点来设计数据模型。
但是,对于分析工作,例如使用 Spark ,查询 不会那样:通常需要“搜索”特定分区(我无法找到一种方法来使用SparkSQL和数据帧API)并且应该不能像这样工作:Spark作业应该将许多分区作为目标,分布在所有共存的Spark / Cassandra节点上。
我的数据模型以这样一种方式工作,即实时获取我的数据作为一个整体插入分区。我的分区是“原子的”:Spark的大型分析工作主要关联一个分区内的数据(这很好,因为它允许Spark执行器的数据位置)但我的主要问题是找到我想要操作的分区。 / p>
那么,复制我的分区键并将其作为聚类键呢?这样我就可以在其上构建一个SASI index,并以额外存储为代价拥有“两全其美”。
这是一个合理的策略吗?