Spark数据集API - 加入

时间:2016-04-06 21:26:53

标签: scala apache-spark apache-spark-sql apache-spark-dataset

我正在尝试使用Spark Dataset API,但我在进行简单连接时遇到了一些问题。

假设我有两个包含字段的数据集:date | value,那么在DataFrame的情况下,我的连接看起来像:

val dfA : DataFrame
val dfB : DataFrame

dfA.join(dfB, dfB("date") === dfA("date") )

但是对于Dataset,有.joinWith方法,但相同的方法不起作用:

val dfA : Dataset
val dfB : Dataset

dfA.joinWith(dfB, ? )

.joinWith所需的论点是什么?

3 个答案:

答案 0 :(得分:28)

要使用joinWith,首先必须创建DataSet,其中最有可能是其中两个。要创建DataSet,您需要创建一个与您的架构匹配的案例类,并调用DataFrame.as[T],其中T是您的案例类。所以:

case class KeyValue(key: Int, value: String)
val df = Seq((1,"asdf"),(2,"34234")).toDF("key", "value")
val ds = df.as[KeyValue]
// org.apache.spark.sql.Dataset[KeyValue] = [key: int, value: string]

您也可以跳过案例类并使用元组:

val tupDs = df.as[(Int,String)]
// org.apache.spark.sql.Dataset[(Int, String)] = [_1: int, _2: string]

然后,如果你有另一个案例类/ DF,就像这样说:

case class Nums(key: Int, num1: Double, num2: Long)
val df2 = Seq((1,7.7,101L),(2,1.2,10L)).toDF("key","num1","num2")
val ds2 = df2.as[Nums]
// org.apache.spark.sql.Dataset[Nums] = [key: int, num1: double, num2: bigint]

然后,虽然joinjoinWith的语法相似,但结果却不同:

df.join(df2, df.col("key") === df2.col("key")).show
// +---+-----+---+----+----+
// |key|value|key|num1|num2|
// +---+-----+---+----+----+
// |  1| asdf|  1| 7.7| 101|
// |  2|34234|  2| 1.2|  10|
// +---+-----+---+----+----+

ds.joinWith(ds2, df.col("key") === df2.col("key")).show
// +---------+-----------+
// |       _1|         _2|
// +---------+-----------+
// | [1,asdf]|[1,7.7,101]|
// |[2,34234]| [2,1.2,10]|
// +---------+-----------+

如您所见,joinWith将对象保留为元组的一部分,而join将列展平为单个命名空间。 (这会导致上述情况出现问题,因为重复了列名“key”。)

奇怪的是,我必须使用df.col("key")df2.col("key")来创建加入dsds2的条件 - 如果您只使用col("key")任何一方都不起作用,ds.col(...)不存在。然而,使用原始df.col("key")可以解决问题。

答案 1 :(得分:7)

来自https://docs.cloud.databricks.com/docs/latest/databricks_guide/05%20Spark/1%20Intro%20Datasets.html

看起来你可以做到

dfA.as("A").joinWith(dfB.as("B"), $"A.date" === $"B.date" )

答案 2 :(得分:2)

在上面的示例中,您可以尝试以下选项 -

  • 为输出定义案例类

    case class JoinOutput(key:Int, value:String, num1:Double, num2:Long)

  • 使用“Seq(”key“)”连接两个数据集,这将帮助您避免输出中的两个重复键列。这将有助于应用案例类或在下一步中获取数据

    ds.join(ds2, Seq("key")).as[JoinOutput] res27: org.apache.spark.sql.Dataset[JoinOutput] = [key: int, value: string ... 2 more fields]

    scala> ds.join(ds2, Seq("key")).as[JoinOutput].show +---+-----+----+----+ |key|value|num1|num2| +---+-----+----+----+ | 1| asdf| 7.7| 101| | 2|34234| 1.2| 10| +---+-----+----+----+