Java Spark,使用嵌套的JSON创建数据集重新排序列

时间:2019-04-04 12:57:05

标签: java json apache-spark apache-spark-sql dataset

我遇到了一个问题,我需要使用JSON文件在Java Spark中创建数据集,然后将内容输出到实木复合地板文件中。

我遇到的问题是,实木复合地板文件需要具有特定的架构,并且JSON中的数据集将按字母顺序对数据进行重新排序,并且也对JSON的嵌套部分执行此操作。我知道我可以使用select然后按所需顺序指定列。我的问题与专门嵌套嵌套列aNested和bNested有关。如何选择嵌套字段以对它们进行重新排序以匹配最终所需的镶木地板输出架构?

JSON数据集架构:

bb=pre(bb)

所需的最终实木复合地板架构:

|-- a: string (nullable = true)
|-- b: array (nullable = true)
|     |-- element: struct (containsNull = true)
|     |     |-- aNested: string (nullable = true)
|     |     |-- bNested: long (nullable = true)
|     |     |-- cNested: long (nullable = true)
|-- cDate: string(nullable = true)

0 个答案:

没有答案