就地重新计算嵌套的spark列

时间:2018-08-20 13:14:29

标签: apache-spark pyspark-sql databricks

我具有以下格式的嵌套数据框:

-foo
   - id
   - f1
   - f2
     - f3
     - f4

f3是一个逗号分隔的字符串,我需要将其转换为一个数组(以逗号分隔)。

我可以通过爆炸,重新打包和重新加入来轻松地做到这一点:

select id, struct(collect_list(e), f4) as f2  from table 
lateral view explode(split(f2.f3)) e as e
group by id, f4

现在,我需要将其与原始数据框重新连接。

这是非常昂贵的。我想知道这是否可以就地完成,或者至少无需重新加入即可。

如果这有所帮助,我将在databricks运行时之上运行。

0 个答案:

没有答案