最好的方法是使用spark将cassandra数据保存到s3

时间:2017-12-06 08:53:35

标签: apache-spark amazon-s3 cassandra parquet spark-cassandra-connector

我有一张大小约为150 GB的cassandra表。我想将表迁移到另一个cassandra集群。我有两种方法: - 1.使用spark作业从旧集群读取数据并写入新集群 2.使用某种格式将cassandra数据保存到S3。将数据保存到S3后,使用spark再次读取数据以将数据保存到新群集。    如果我采用这种方法,那么我应该以什么格式保存数据?因为我必须再次从S3读取数据。那么,在这种情况下哪种格式最好? csv或json还是镶木地板?

1 个答案:

答案 0 :(得分:0)

我建议使用COPY TO命令在csv中提取,然后将数据复制回来 - https://docs.datastax.com/en/cql/3.3/cql/cql_reference/cqlshCopy.html

e.g。

COPY my_table TO 'my_table.csv' // on source Cassandra
COPY my_table FROM 'my_table.csv' // on destination Cassandra