spark如何解决嵌套数据结构中的字段引用。例如; 以下是实木复合地板文件的架构。 数据架构格式
root
|
--- id
--- name
--- address
|
---street-name
---city
---state
---country
---hiredate
---designation
要查询国家/地区字段,我可以在spark(scala)中使用以下代码。 数据存储在实木复合地板文件中。用例(查询)用于选择不是来自country =“ Somalia”的所有员工
使用spark可以实现
val df = spark.read.parquet("filepath")
df.filter("address.country <> 'Somalia'").show()
spark如何解决“。” (点)是嵌套结构中子级和父级之间的分隔符,并获取结果。我正在寻找火花源代码中执行任务的部分?感谢任何帮助。
我目前正在尝试在mapreduce作业中使用相同的功能来获取字段,但需要遍历结构。