在数组类型内的结构中放置一列

时间:2018-11-26 23:42:43

标签: apache-spark pyspark apache-spark-sql

我的模式如下

root
 |-- source: string (nullable = true)
 |-- results: array (nullable = true)
 |    |-- content: struct (containsNull = true)
 |    |    |-- ptype: string (nullable = true)
 |    |    |-- domain: string (nullable = true)
 |    |    |-- verb: string (nullable = true)
 |    |    |-- foobar: map (nullable = true)
 |    |    |    |-- key: string
 |    |    |    |-- value: string (valueContainsNull = true)
 |    |    |-- fooId: integer (nullable = true)
 |-- date: string (nullable = false)
 |-- hour: string (nullable = false)

我有上述数据的df。我想创建一个没有 fooId的数据框。 我无法使用drop,因为它是一个嵌套列。

棘手的部分是results是一个数组,并以content作为结构。 其中有fooId

最干净的方法是什么?

0 个答案:

没有答案