从Cassandra表列批量复制到文件

时间:2019-03-19 23:58:21

标签: cassandra cassandra-3.0

我需要将cassandra数据库列复制到文件中。
该数据库有1500万条记录,其中有下面的列。我想将付款列数据复制到文件中。由于这是一个生产环境,将导致对卡桑德拉群集的压力。

userid      | contract | payment | createdDate

有什么建议吗?

在1500万笔付款明细中,我们只想修改一些(根据某些条件)并插入到另一个Cassandra表中。

复制到文件->处理它->将其写入新的数据库表。那是计划。但首先要如何从cassandra数据库中获取列的副本。

问候 基兰

1 个答案:

答案 0 :(得分:0)

您可以使用Spark + Spark Cassandra Connector(SCC)进行数据加载,修改和回写。 SCC具有许多旋钮,可用于调整吞吐量,以免在读写时使群集过载。

如果没有Spark,则在获取数据时仍可以使用类似的方法-不发布select * from table(这会使处理请求的节点超载),而是通过特定方式执行数据加载令牌范围,因此查询将转到不同的服务器,并且不会使它们过载太多。您可以找到按令牌范围here进行扫描的代码示例。