我有一个数据集,其中包含两列col1
和col2
数组类型的可变长度。 col1
具有架构字段的名称,col2
具有相应的值。来自col1
的数组索引(它是模式字段名称)确定col2
中的值。模式字段将来自col1
(c1,c2,c3,c4,c5,c6和c7)的不同值。在c1到c7中,有些是数组类型(例如,c3和c6),其他是字符串。
示例输入数据集:
col1 col2
--------------------------------------------------------------
[c1, c3, c6] [aaa, [ab, ac], [bc, bd]]
[c2, c3, c4, c5] [bbb, [bb, bc], ccc, ddd]
[c4, c6, c7] [fff, [ss, pp, l], zzz]
预期数据集:
c1 c2 c3 c4 c5 c6 c7
-------------------------------------------------------------------
aaa null [ab, ac] null null [bc, bd] null
null bbb [bb, bc] ccc ddd null null
null null null fff null [ss, pp, l] zzz