Spark Dataset和java.sql.Date

时间:2016-08-05 21:29:58

标签: scala apache-spark apache-spark-dataset apache-spark-encoders

我们假设我有一个像这样的Spark Dataset

scala> import java.sql.Date
scala> case class Event(id: Int, date: Date, name: String)
scala> val ds = Seq(Event(1, Date.valueOf("2016-08-01"), "ev1"), Event(2, Date.valueOf("2018-08-02"), "ev2")).toDS

我想创建一个只包含名称和日期字段的新Dataset。据我所知,我可以将ds.select()TypedColumn一起使用,也可以将ds.select()Column一起使用,然后将DataFrame转换为{{1} }}

但是,我无法使用Dataset类型使用前一个选项。例如:

Date

后一个选项有效:

scala> ds.select($"name".as[String], $"date".as[Date])
<console>:31: error: Unable to find encoder for type stored in a Dataset.  Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._  Support for serializing other types will be added in future releases.
              ds.select($"name".as[String], $"date".as[Date])
                                                      ^

有没有办法从scala> ds.select($"name", $"date").as[(String, Date)] res2: org.apache.spark.sql.Dataset[(String, java.sql.Date)] = [name: string, date: date] 中选择Date字段,而无需转到Dataset并返回?

1 个答案:

答案 0 :(得分:4)

一直在抨击这些问题。我想你可以用一行来解决你的问题:

implicit val e: Encoder[(String, Date)] = org.apache.spark.sql.Encoders.kryo[(String,Date)]

至少那对我有用。

修改

在这些情况下,问题是对于大多数Dataset操作,Spark 2需要Encoder来存储架构信息(可能是为了优化)。模式信息采用隐式参数的形式(并且一堆Dataset操作具有这种隐式参数。)

在这种情况下,OP为java.sql.Date找到了正确的架构,因此以下工作:

implicit val e = org.apache.spark.sql.Encoders.DATE