Spark中的嵌套结构遍历

时间:2018-11-27 23:22:41

标签: apache-spark

spark如何解决嵌套数据结构中的字段引用。例如; 以下是实木复合地板文件的架构。 数据架构格式

root | --- id --- name --- address | ---street-name ---city ---state ---country ---hiredate ---designation

要查询国家/地区字段,我可以在spark(scala)中使用以下代码。  数据存储在实木复合地板文件中。用例(查询)用于选择不是来自country =“ Somalia”的所有员工

使用spark可以实现

  val df = spark.read.parquet("filepath")
  df.filter("address.country <> 'Somalia'").show()

spark如何解决“。” (点)是嵌套结构中子级和父级之间的分隔符,并获取结果。我正在寻找火花源代码中执行任务的部分?感谢任何帮助。

我目前正在尝试在mapreduce作业中使用相同的功能来获取字段,但需要遍历结构。

0 个答案:

没有答案