使用scala将json读入多个spark数据帧

时间:2019-03-02 06:50:30

标签: json apache-spark dataframe

我的json结构是这样的:

{
  "posts": [],
  "persons": [],
  "organizations": [],
  "meta": {
    "sources": [
      "http://loksabha.nic.in/",
      "http://wikidata.org/",
      "http://gender-balance.org/"
    ]
  },
  "memberships": [],
  "events": [],
  "areas": []
}

我想将帖子读入数据框,但是帖子是json对象的数组。类似的其他json数组,除了“元”。应该将“ meta” json对象内的“ sources”数组读入另一个数据框。

无论如何,有没有使用Spark Scala来实现这一目标的。

非常感谢您的帮助。

预先感谢 沙克蒂

1 个答案:

答案 0 :(得分:0)

您可以使用扩展功能。 我猜你有类似的东西

val jsonDf = spark.read.json("your_json.json")
val postsDf = jsonDF.withColumn("post", explode(col("posts")).select("post")