saveToCassandra()如何工作?

时间:2017-07-24 15:48:46

标签: apache-spark cassandra spark-cassandra-connector

我想知道我什么时候使用 rdd.saveToCassandra()如果这个函数将当前rdd的所有元素保存到表cassandra中一次或者按照与map函数类似的元素保存元素每个rdd的元素并返回新解析的元素?

谢谢

1 个答案:

答案 0 :(得分:0)

既不是第一种选择,也不是第二种选择。它在分组配置的大小(每个by default 1024个字节和每个Spark任务1000个批次)分组后写入数据。如果您对详细信息感兴趣 - 它是开源的,请检查RDDFunctionsTableWriter以便开始。

更新为对评论的回复。您可以将RDD拆分为多个RDD,并使用saveToCassandra保存每个RDD。 RDD拆分现在不是Spark的标准功能,因此您需要像Silex这样的第三方库。查看flatMuxPartitions here

的文档