我需要将cassandra数据库列复制到文件中。
该数据库有1500万条记录,其中有下面的列。我想将付款列数据复制到文件中。由于这是一个生产环境,将导致对卡桑德拉群集的压力。
userid | contract | payment | createdDate
有什么建议吗?
在1500万笔付款明细中,我们只想修改一些(根据某些条件)并插入到另一个Cassandra表中。
复制到文件->处理它->将其写入新的数据库表。那是计划。但首先要如何从cassandra数据库中获取列的副本。
问候 基兰
答案 0 :(得分:0)
您可以使用Spark + Spark Cassandra Connector(SCC)进行数据加载,修改和回写。 SCC具有许多旋钮,可用于调整吞吐量,以免在读写时使群集过载。
如果没有Spark,则在获取数据时仍可以使用类似的方法-不发布select * from table
(这会使处理请求的节点超载),而是通过特定方式执行数据加载令牌范围,因此查询将转到不同的服务器,并且不会使它们过载太多。您可以找到按令牌范围here进行扫描的代码示例。