我有一个非常幼稚的问题。将一行行id添加到表中的最简单方法是什么。无需排序,分区或执行任何其他操作,只需添加一个类似1,2,3 ... N的row_id。
我正在使用spark sql。我知道“zipWithIndex”可以在spark中完成它,但我对如何用sql完成它更感兴趣。
答案 0 :(得分:1)
zipWithIndex将适合您的用例。 zipWithIndex RDD函数,与row_number()相同 以下是示例:
val z = sc.parallelize(100 to 120, 5)
val r = z.zipWithIndex
r.collect
res11: Array[(Int, Long)] = Array((100,0), (101,1), (102,2), (103,3), (104,4), (105,5), (106,6), (107,7), (108,8), (109,9), (110,10), (111,11), (112,12), (113,13), (114,14), (115,15), (116,16), (117,17), (118,18), (119,19), (120,20))
答案 1 :(得分:0)
我需要一个参考框架。什么数据库类型?
快速回答是通过用户界面修改表格。添加名为row_id的列作为标识字段。它会自动增加。
您可以通过sql执行相同的功能。