Spark数据帧。从现有的json列添加列

时间:2017-03-30 14:59:11

标签: json scala apache-spark dataframe

我有一个数据集[(Long,String)],它包含一个id和一个json String 它的构建或多或少是这样的:

val ids: Dataset[Long] = ...
val results = ids.mapPartitions( ids => {
   // Create http client
   .
   .
   ids.map( id => (id, getJsonById(id))
   }

如果我运行results.toDF,它将创建一个带有id的数据帧和带有json的字符串,但我想要的是一个带有id和json中所有列的Dataframe。

我怎样才能做到这一点?

编辑:我想将整个json加载为数据帧,而不是它的特定字段。 像sparkContext.read.json(jsonRDD:RDD [String])那样的东西。

由于

0 个答案:

没有答案