我有表#1,它有一列表示状态值为IL,TX,CA。还有另一个表(表#2),其具有状态描述的映射,如(IL,Illinois),(TX,Texas),(CA,California)。我想在表#1中添加一个新列StateDescription,并根据表#2中的StateDescription更新相应State字段的值。 大约有5亿条记录需要这样做。处理相同的最佳方法是什么?
答案 0 :(得分:0)
使用任何具有cassandra驱动程序的语言添加列+ write脚本,并根据您描述的逻辑更新每一行。您可以在部分数据上实现并行执行,以获得更好的吞吐量(如果您的集群可以使用它)。
您还可以使用spark实现逻辑。