如何从DataFrame中将嵌套数组放入另一个数组中,从JSON读入?

时间:2017-11-09 11:09:37

标签: json scala apache-spark dataframe nested

我是Scala和Spark的新手。我有一个关于从我的DataFrame中删除嵌套数组的问题。

这是我的DataFrame架构:

  root
 |-- dedupeMode: string (nullable = true)
 |-- modules: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- content: array (nullable = true)
 |    |    |    |-- element: struct (containsNull = true)
 |    |    |    |    |-- id: string (nullable = true)
 |    |    |    |    |-- weight: double (nullable = true)
 |    |    |-- id: string (nullable = true)
 |    |    |-- randomize: boolean (nullable = true)
 |-- vars: struct (nullable = true)
 |    |-- test_group: string (nullable = true)
 |    |-- vbs: string (nullable = true)

我想摆脱 modules array 中的内容数组。 实际上我想要一个空的内容数组来替换它。因此,当我编写JSON时,我会像 content []

那样

我试过了:

dataFrame.drop("modules.content")

并通过Dropping a nested column from Spark DataFrame

的解决方案

但没有解决我的问题。我也尝试了其他变化而没有成功。你会推荐什么?

0 个答案:

没有答案