我是Scala和Spark的新手。我有一个关于从我的DataFrame中删除嵌套数组的问题。
这是我的DataFrame架构:
root
|-- dedupeMode: string (nullable = true)
|-- modules: array (nullable = true)
| |-- element: struct (containsNull = true)
| | |-- content: array (nullable = true)
| | | |-- element: struct (containsNull = true)
| | | | |-- id: string (nullable = true)
| | | | |-- weight: double (nullable = true)
| | |-- id: string (nullable = true)
| | |-- randomize: boolean (nullable = true)
|-- vars: struct (nullable = true)
| |-- test_group: string (nullable = true)
| |-- vbs: string (nullable = true)
我想摆脱 modules array 中的内容数组。 实际上我想要一个空的内容数组来替换它。因此,当我编写JSON时,我会像 content []
那样我试过了:
dataFrame.drop("modules.content")
并通过Dropping a nested column from Spark DataFrame
的解决方案但没有解决我的问题。我也尝试了其他变化而没有成功。你会推荐什么?