我已经将嵌套的JSON转换为Parquet(快照),而没有进行任何展平。例如,该结构具有以下内容:
{“ a”:{“ b”:{“ c”:“ abcd”,“ d”:[1,2,3]},“ e”:[“ asdf”,“ pqrs”]}}}
df = spark.read.parquet('<File on AWS S3>')
df.createOrReplaceTempView("test")
query = """select a.b.c from test"""
df = spark.sql(query)
df.show()
执行查询时,Spark是否只读取查询中引用的最低级别属性列,还是读取其层次结构中具有此引用属性的顶级属性?