Question

我需要将cassandra数据库列复制到文件中。
该数据库有1500万条记录，其中有下面的列。我想将付款列数据复制到文件中。由于这是一个生产环境，将导致对卡桑德拉群集的压力。

userid      | contract | payment | createdDate

有什么建议吗？

在1500万笔付款明细中，我们只想修改一些（根据某些条件）并插入到另一个Cassandra表中。

复制到文件->处理它->将其写入新的数据库表。那是计划。但首先要如何从cassandra数据库中获取列的副本。

问候基兰

Answer 1

您可以使用Spark + Spark Cassandra Connector（SCC）进行数据加载，修改和回写。 SCC具有许多旋钮，可用于调整吞吐量，以免在读写时使群集过载。

如果没有Spark，则在获取数据时仍可以使用类似的方法-不发布select * from table（这会使处理请求的节点超载），而是通过特定方式执行数据加载令牌范围，因此查询将转到不同的服务器，并且不会使它们过载太多。您可以找到按令牌范围here进行扫描的代码示例。