如何将相同的rdd保存到多个cassandra表?

时间:2018-05-15 06:42:59

标签: apache-spark cassandra

我尝试这样做主要是因为我必须将数据从同一个流保存到两个cassandra表中,它们具有几乎相同的架构但不同的主键可以提供两个查询。

rdd.saveToCassandra(keySpace, tableOne, allColumn)
rdd.saveToCassandra(keySpace, tableTwo, allColumn)

做这项工作吗?

这是正常的事吗?我搜索了一下,有人说当rdd很大时可能会出现性能问题:

https://groups.google.com/a/lists.datastax.com/forum/#!topic/spark-connector-user/e1nfWWyhZRo

1 个答案:

答案 0 :(得分:3)

这样做是可以的。为避免出现性能问题,您需要在首次使用之前cache RDD,如下所示:

rdd.cache()

使用后,unpersist你的RDD就是这样的好习惯:

rdd.unpersist()