应用错误收集

加载到Spark中时，大量较小的Cassandra分区的影响

时间：2018-08-03 04:12:22

标签： apache-spark spark-cassandra-connector

在项目中，我必须将设备历史记录详细信息存储在Cassandra中，Number设备的范围可能从50K到100万。我的分区规则是创建5000个Bucket，并将数据存储在许多分区中（不幸的是，无法更改）。使用这种方法，查询工作非常快。

如果我需要使用Spark-Cassandra连接器将此数据加载到Spark集群中，将会产生什么影响？这些数量（较小的大小）的分区对Spark加载时间或处理时间有影响吗？

0 个答案:

没有答案