从长表结构创建数组

时间:2019-08-22 21:00:23

标签: python pyspark databricks

我有24MM的数据行,如下所示:

event_date  event_id    incoming_event_id
2018-12-21  A1          A2
2019-07-20  A2          A3
2018-03-21  B1          B2
2016-08-09  C1          C2
2017-04-02  C2          C3
2018-11-10  C3          C4

我想要做的是为每个事件组创建一个数组。在这种情况下,它们看起来像:

 event_groups
[A1, A2, A3]
[B1, B2]
[C1, C2, C3, C4]

这些阵列的长度可能会持续一段时间,我怀疑可能会达到100。这样做的最有效方法是什么?

0 个答案:

没有答案