我有一个包含大约10万条记录的数据框。现在我想将这个数据帧写入Cassandra,但这个写入应该是并行的。 那怎么可能呢?
答案 0 :(得分:0)
您可以使用datasax spark cassandra connector
您可以找到一个示例来保留数据框here
import org.apache.spark.sql.cassandra._
df.write
.format("org.apache.spark.sql.cassandra")
.options(Map("table" -> "words_copy", "keyspace" -> "test", "cluster" -> "cluster_B"))
.save()
df.write
.cassandraFormat("words_copy", "test", "cluster_B")
.save()