数据框的平面图

时间:2017-05-16 07:29:43

标签: scala apache-spark dataframe flatmap

flatMap火花上预先形成DataFrame的最佳方式是什么? 通过搜索并进行一些测试,我提出了两种不同的方法。这两个都有一些缺点,所以我认为应该有一些更好/更简单的方法来做到这一点。

我找到的第一种方法是首先将DataFrame转换为RDD,然后再转回:

val map = Map("a" -> List("c","d","e"), "b" -> List("f","g","h"))
val df = List(("a", 1.0), ("b", 2.0)).toDF("x", "y")

val rdd = df.rdd.flatMap{ row =>
  val x = row.getAs[String]("x")
  val x = row.getAs[Double]("y")
  for(v <- map(x)) yield Row(v,y)
}
val df2 = spark.createDataFrame(rdd, df.schema)

第二种方法是在使用DataSet之前创建flatMap(使用与上面相同的变量),然后转换回来:

val ds = df.as[(String, Double)].flatMap{
  case (x, y) => for(v <- map(x)) yield (v,y)
}.toDF("x", "y")

当列数很少时,这两种方法都能很好地工作,但是我有很多超过2列。有没有更好的方法来解决这个问题?优选地,不需要转换。

1 个答案:

答案 0 :(得分:1)

您可以从dataframe RDD:

创建第二个map
val mapDF = Map("a" -> List("c","d","e"), "b" -> List("f","g","h")).toList.toDF("key", "value")

然后执行join并应用explode功能:

val joinedDF = df.join(mapDF, df("x") === mapDF("key"), "inner")
  .select("value", "y")
  .withColumn("value", explode($"value"))

你得到了解决方案。

joinedDF.show()