我的json结构是这样的:
{
"posts": [],
"persons": [],
"organizations": [],
"meta": {
"sources": [
"http://loksabha.nic.in/",
"http://wikidata.org/",
"http://gender-balance.org/"
]
},
"memberships": [],
"events": [],
"areas": []
}
我想将帖子读入数据框,但是帖子是json对象的数组。类似的其他json数组,除了“元”。应该将“ meta” json对象内的“ sources”数组读入另一个数据框。
无论如何,有没有使用Spark Scala来实现这一目标的。
非常感谢您的帮助。
预先感谢 沙克蒂
答案 0 :(得分:0)
您可以使用扩展功能。 我猜你有类似的东西
val jsonDf = spark.read.json("your_json.json")
val postsDf = jsonDF.withColumn("post", explode(col("posts")).select("post")