scala - Spark Hive代理键

我确实有一个如下数据框

+--------+-----+-------+-------------+----+
| movieID|Title|  genre|      row_key|TEST|
+--------+-----+-------+-------------+----+
|56053970|    3|6069358| PYME (otros)|   0|
|76076916|    9|7931718| PYME (otros)|   0|
| 9262542|    7|2572351| PYME (otros)|   0|
| 5356903|    K| 752733| PYME (otros)|   0|
| 5632710|    K| 852839|Independiente|   0|
|77725450|    2|5805474| PYME (otros)|   0|
+--------+-----+-------+-------------+----+

现在，我的要求是添加一个ID增加的列，例如在传统RDBMS中使用代理键

现在，如果我添加具有增加ID的列。下次当我再次重新加载此数据帧时，我需要增加并插入以获取最大ID。

我该如何实现？

我已经以多种方式尝试过。

但是我该如何实现呢？

Spark Hive代理键

0 个答案: