这是我的情景。我有一张500万行以上的表格。一个特定的映射列有两个键(某些条目可能缺少一个或两个键,但任何行最多只有两个键用于该列)。
我希望"明确"所有行中该列的值。我不想摆脱这个专栏,因为我之后会运行一些可以设置一些值的东西。我想象只是做更新表集column.key = null ...会因超时而失败。
实现这一目标的cassandra最友好的方式是什么?我可以访问Spark。是使用spark,读取rdds并在每行发出更新查询并在分区中执行此操作吗?
谢谢, Ashic。
PS:Apache Cassandra 2.1.2,Spark 1.1.1。
========================
编辑:我可以忍受停机时间。
答案 0 :(得分:1)
结束只需创建一个spark应用程序,获取表的rdd并为每个分区的每一行发出异步更新,等待每个分区的查询完成。花了8分52秒来更新500万行。虽然不需要,但之后在键空间上进行了修复。