如何将Spark数据帧并行写入cassandra?

时间:2018-05-28 09:48:00

标签: apache-spark apache-spark-sql

我有一个包含大约10万条记录的数据框。现在我想将这个数据帧写入Cassandra,但这个写入应该是并行的。 那怎么可能呢?

1 个答案:

答案 0 :(得分:0)

您可以使用datasax spark cassandra connector

您可以找到一个示例来保留数据框here

    import org.apache.spark.sql.cassandra._

df.write
  .format("org.apache.spark.sql.cassandra")
  .options(Map("table" -> "words_copy", "keyspace" -> "test", "cluster" -> "cluster_B"))
  .save()

df.write
  .cassandraFormat("words_copy", "test", "cluster_B")
  .save()