Spark Scala,如何检查数据框中是否存在嵌套列

时间:2019-03-14 13:30:34

标签: scala apache-spark schema parquet

我正在从具有嵌套列(struct)的镶木地板文件中读取数据帧。 如何检查嵌套列是否存在?

可能是这样

+----------------------+
| column1              |
+----------------------+
|{a_id:[1], b_id:[1,2]}|
+----------------------+

或这样

+---------------------+
| column1             |
+---------------------+
|{a_id:[3,5]}         |
+---------------------+

我知道,如何检查是否存在顶级列,如此处回答:How do I detect if a Spark DataFrame has a column

df.schema.fieldNames.contains("column_name")

但是如何检查嵌套列?

1 个答案:

答案 0 :(得分:3)

您可以获取嵌套字段的架构作为struct,然后检查您的字段是否在其字段名称中出现:

val index = df.schema.fieldIndex("column1")
val is_b_id_present = df.schema(index).dataType.asInstanceOf[StructType]
                          .fieldNames.contains("b_id")