我正在尝试使用Spark on Scala将数据写入Cassandra表。有时火花任务在两者之间失败并且有部分写入。当新任务从第一个开始时,Spark是否回滚部分写入。
答案 0 :(得分:2)
没有。 Spark(和Cassandra就此而言)根据整个任务不进行提交样式插入。这意味着您的写入必须是幂等的,否则您最终可能会遇到奇怪的行为。
答案 1 :(得分:0)
不,但如果我是对的,你可以重新处理你的数据。这将覆盖部分写入。写入Cassandra时,当您尝试使用相同的主键插入数据时,会使用一种更新(upsert)。