Question

我是Scala和Spark的新手。我有一个关于从我的DataFrame中删除嵌套数组的问题。

这是我的DataFrame架构：

  root
 |-- dedupeMode: string (nullable = true)
 |-- modules: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- content: array (nullable = true)
 |    |    |    |-- element: struct (containsNull = true)
 |    |    |    |    |-- id: string (nullable = true)
 |    |    |    |    |-- weight: double (nullable = true)
 |    |    |-- id: string (nullable = true)
 |    |    |-- randomize: boolean (nullable = true)
 |-- vars: struct (nullable = true)
 |    |-- test_group: string (nullable = true)
 |    |-- vbs: string (nullable = true)

我想摆脱 modules array 中的内容数组。实际上我想要一个空的内容数组来替换它。因此，当我编写JSON时，我会像 content []

那样

我试过了：

dataFrame.drop("modules.content")

并通过Dropping a nested column from Spark DataFrame

的解决方案

但没有解决我的问题。我也尝试了其他变化而没有成功。你会推荐什么？

如何从DataFrame中将嵌套数组放入另一个数组中，从JSON读入？

0 个答案: