Question

我想根据日期为数据框中的每一行创建一个unique_id。

df1：

+---+-----+----+-------+-----+
|day|month|year| userid|units|
+---+-----+------------+-----+
| 01|   01|2016|87cb11 |    0|
| 01|   01|2016|87cb11 |    1|
| 01|   01|2016|87cb11 |    2|
| 02|   01|2016|87cb11 |    0|
| 02|   01|2016|87cb11 |    1|
| 02|   01|2016|87cb11 |    2|
+---+-----+----+-------+-----+

我尝试使用monotonically_increasing_id()，但是我不确定如何创建一个增加长度的数字。

df2：

+---+-----+----+-------+-----+---------------+
|day|month|year| userid|units| unique_id     |
+---+-----+------------+-----+---------------+
| 01|   01|2016|87cb11 |    0|201601010000001|
| 01|   01|2016|87cb11 |    1|201601010000002|
| 01|   01|2016|87cb11 |    2|201601010000003|
| 02|   01|2016|87cb11 |    0|201601020000001|
| 02|   01|2016|87cb11 |    1|201601020000002|
| 02|   01|2016|87cb11 |    2|201601020000003|
+---+-----+----+-------+-----+---------------+

使用Pyspark创建具有特定长度的unique_id

0 个答案: