用于向Cassandra插入数据的Spark Job

时间:2017-02-21 16:42:11

标签: apache-spark cassandra apache-spark-sql spark-dataframe spark-cassandra-connector

我正在尝试使用Spark on Scala将数据写入Cassandra表。有时火花任务在两者之间失败并且有部分写入。当新任务从第一个开始时,Spark是否回滚部分写入。

2 个答案:

答案 0 :(得分:2)

没有。 Spark(和Cassandra就此而言)根据整个任务不进行提交样式插入。这意味着您的写入必须是幂等的,否则您最终可能会遇到奇怪的行为。

答案 1 :(得分:0)

不,但如果我是对的,你可以重新处理你的数据。这将覆盖部分写入。写入Cassandra时,当您尝试使用相同的主键插入数据时,会使用一种更新(upsert)。