标签: apache-spark spark-cassandra-connector
在项目中,我必须将设备历史记录详细信息存储在Cassandra中,Number设备的范围可能从50K到100万。我的分区规则是创建5000个Bucket,并将数据存储在许多分区中(不幸的是,无法更改)。使用这种方法,查询工作非常快。
如果我需要使用Spark-Cassandra连接器将此数据加载到Spark集群中,将会产生什么影响?这些数量(较小的大小)的分区对Spark加载时间或处理时间有影响吗?