Question

我有一个数据集，其中包含两列col1和col2数组类型的可变长度。 col1具有架构字段的名称，col2具有相应的值。来自col1的数组索引（它是模式字段名称）确定col2中的值。模式字段将来自col1（c1，c2，c3，c4，c5，c6和c7）的不同值。在c1到c7中，有些是数组类型（例如，c3和c6），其他是字符串。

示例输入数据集：

     col1                         col2
--------------------------------------------------------------
[c1, c3, c6]                 [aaa, [ab, ac], [bc, bd]]
[c2, c3, c4, c5]             [bbb, [bb, bc], ccc, ddd]
[c4, c6, c7]                 [fff, [ss, pp, l], zzz]

预期数据集：

c1         c2       c3        c4         c5        c6          c7
-------------------------------------------------------------------
aaa       null    [ab, ac]   null      null      [bc, bd]     null
null      bbb     [bb, bc]   ccc       ddd         null       null
null      null      null     fff       null      [ss, pp, l]  zzz

使用scala为给定模式创建数据集的有效方法是什么？

0 个答案: