我具有以下格式的嵌套数据框:
-foo
- id
- f1
- f2
- f3
- f4
f3是一个逗号分隔的字符串,我需要将其转换为一个数组(以逗号分隔)。
我可以通过爆炸,重新打包和重新加入来轻松地做到这一点:
select id, struct(collect_list(e), f4) as f2 from table
lateral view explode(split(f2.f3)) e as e
group by id, f4
现在,我需要将其与原始数据框重新连接。
这是非常昂贵的。我想知道这是否可以就地完成,或者至少无需重新加入即可。
如果这有所帮助,我将在databricks运行时之上运行。