我尝试这样做主要是因为我必须将数据从同一个流保存到两个cassandra表中,它们具有几乎相同的架构但不同的主键可以提供两个查询。
将
rdd.saveToCassandra(keySpace, tableOne, allColumn)
rdd.saveToCassandra(keySpace, tableTwo, allColumn)
做这项工作吗?
这是正常的事吗?我搜索了一下,有人说当rdd很大时可能会出现性能问题:
https://groups.google.com/a/lists.datastax.com/forum/#!topic/spark-connector-user/e1nfWWyhZRo
答案 0 :(得分:3)
这样做是可以的。为避免出现性能问题,您需要在首次使用之前cache
RDD,如下所示:
rdd.cache()
使用后,unpersist
你的RDD就是这样的好习惯:
rdd.unpersist()