使用scala为给定模式创建数据集的有效方法是什么?

时间:2018-05-29 08:01:12

标签: apache-spark-sql apache-spark-dataset

我有一个数据集,其中包含两列col1col2数组类型的可变长度。 col1具有架构字段的名称,col2具有相应的值。来自col1的数组索引(它是模式字段名称)确定col2中的值。模式字段将来自col1(c1,c2,c3,c4,c5,c6和c7)的不同值。在c1到c7中,有些是数组类型(例如,c3和c6),其他是字符串。

示例输入数据集:

     col1                         col2
--------------------------------------------------------------
[c1, c3, c6]                 [aaa, [ab, ac], [bc, bd]]
[c2, c3, c4, c5]             [bbb, [bb, bc], ccc, ddd]
[c4, c6, c7]                 [fff, [ss, pp, l], zzz]

预期数据集:

c1         c2       c3        c4         c5        c6          c7
-------------------------------------------------------------------
aaa       null    [ab, ac]   null      null      [bc, bd]     null
null      bbb     [bb, bc]   ccc       ddd         null       null
null      null      null     fff       null      [ss, pp, l]  zzz

0 个答案:

没有答案