加载到Spark中时,大量较小的Cassandra分区的影响

时间:2018-08-03 04:12:22

标签: apache-spark spark-cassandra-connector

在项目中,我必须将设备历史记录详细信息存储在Cassandra中,Number设备的范围可能从50K到100万。我的分区规则是创建5000个Bucket,并将数据存储在许多分区中(不幸的是,无法更改)。使用这种方法,查询工作非常快。

如果我需要使用Spark-Cassandra连接器将此数据加载到Spark集群中,将会产生什么影响?这些数量(较小的大小)的分区对Spark加载时间或处理时间有影响吗?

0 个答案:

没有答案