我有一个数据集[(Long,String)],它包含一个id和一个json String 它的构建或多或少是这样的:
val ids: Dataset[Long] = ...
val results = ids.mapPartitions( ids => {
// Create http client
.
.
ids.map( id => (id, getJsonById(id))
}
如果我运行results.toDF,它将创建一个带有id的数据帧和带有json的字符串,但我想要的是一个带有id和json中所有列的Dataframe。
我怎样才能做到这一点?
编辑:我想将整个json加载为数据帧,而不是它的特定字段。 像sparkContext.read.json(jsonRDD:RDD [String])那样的东西。
由于