我想用sparkSQL解析实木复合地板数据。我想浏览类似(key ='highway'和value ='primary')的数据。
实木复合地板数据的结构; |-id:长(nullable = true)|- 版本:整数(nullable = true)|-时间戳:long(nullable = true)|-changeset:long(可空= true)|-uid:整数 (nullable = true)|-user_sid:二进制(nullable = true)|-标签: 数组(nullable = true)| |-元素:struct(containsNull = 是)| | |-键:二进制(可为空= true)| | |- 值:二进制(nullable = true)|-节点:数组(nullable = true)| |-元素:struct(containsNull = true)| | |-索引: 整数(nullable = true)| | |-nodeId:长(可空= 是的)
样本数据;
+ -------------------- + |标签| + -------------------- + | [[高速公路,居住... | | [[高速公路,居住... | | [[高速公路,居住... | | [[高速公路,第二... | | [[高速公路,第二... | | [[高速公路,主要... | | [[高速公路,区域... | | [[cycleway:both,... | | [[高速公路,第二... | | [[高速公路,居住... | | [[高速公路,第二... | | [[高速公路,第二... | | [[高速公路,第二... | | [[高速公路,第二... | | [[高速公路,第二... | | [[高速公路,第二... | | [[高速公路,主要... | | [[高速公路,居住... | | [[高速公路,居住... | | [[高速公路,区域... | + -------------------- +
df_parquet.select('tags').first()
#Output;Row(tags=[Row(key=bytearray(b'highway'),
value=bytearray(b'residential')), Row(key=bytearray(b'name'),
value=bytearray(b'Honv\xc3\xa9d utca'))])