Question

我有一张大小约为150 GB的cassandra表。我想将表迁移到另一个cassandra集群。我有两种方法： - 1.使用spark作业从旧集群读取数据并写入新集群 2.使用某种格式将cassandra数据保存到S3。将数据保存到S3后，使用spark再次读取数据以将数据保存到新群集。如果我采用这种方法，那么我应该以什么格式保存数据？因为我必须再次从S3读取数据。那么，在这种情况下哪种格式最好？ csv或json还是镶木地板？

Answer 1

我建议使用COPY TO命令在csv中提取，然后将数据复制回来 - https://docs.datastax.com/en/cql/3.3/cql/cql_reference/cqlshCopy.html

e.g。

COPY my_table TO 'my_table.csv' // on source Cassandra
COPY my_table FROM 'my_table.csv' // on destination Cassandra

最好的方法是使用spark将cassandra数据保存到s3

1 个答案: