Spark Hive代理键

时间:2018-07-03 10:48:54

标签: scala apache-spark hive apache-spark-sql

我确实有一个如下数据框

+--------+-----+-------+-------------+----+
| movieID|Title|  genre|      row_key|TEST|
+--------+-----+-------+-------------+----+
|56053970|    3|6069358| PYME (otros)|   0|
|76076916|    9|7931718| PYME (otros)|   0|
| 9262542|    7|2572351| PYME (otros)|   0|
| 5356903|    K| 752733| PYME (otros)|   0|
| 5632710|    K| 852839|Independiente|   0|
|77725450|    2|5805474| PYME (otros)|   0|
+--------+-----+-------+-------------+----+

现在,我的要求是添加一个ID增加的列,例如在传统RDBMS中使用代理键

现在,如果我添加具有增加ID的列。下次当我再次重新加载此数据帧时,我需要增加并插入以获取最大ID。

我该如何实现?

我已经以多种方式尝试过。

但是我该如何实现呢?

0 个答案:

没有答案