需要在pyspark中连接collect_set()的输出

时间:2019-03-01 14:09:29

标签: python pyspark

我有多个使用// in User Model public function getRawBlob() { $this->getOriginal('blob'); } 创建的列。

现在,我需要通过串联所有这些列来创建一个新列。我无法做到这一点。如图collect_set()所示。

<Array<string>>

现在,我需要通过串联customer | visit_1_groups| Visit_2_groups|Visit_3_groups | 1 | [[toys]] | [[Bikes]] | [[gloves, helmet]] | 2 | [[Bikes]] | [[gloves]] | [[]] | visit_1visit_2来创建新列。

所需的输出如下:

[玩具] [自行车] [手套,头盔]

[自行车] [手套]

0 个答案:

没有答案