带有Play-json验证的Apache Spark Scala

时间:2019-01-23 10:24:42

标签: scala apache-spark play-json

java.lang.UnsupportedOperationException:不支持[特征对象]类型的模式

trait Container {
  def aa: String
  def bb: Int
}

case class First(aa: String, bb: Int) extends Container
case class Second(aa: String, bb: Int) extends Container

implicit val aaContainerFormat: Format[First] = Json.format[First]

implicit val bbContainerFormat: Format[Second] = Json.format[Second]

implicit def nodeContainerReads: Reads[Container] =
  try {
    Json.format[First].map(x => x: Container) or
    Json.format[Second].map(x => x: Container)
  } catch {
    case e: Exception => Reads {
      case _ => JsError(JsonValidationError("Cannot De-serialize value."))
    }
  }

implicit def nodeContainerWrites = new Writes[Container] {
  override def writes(node: Container): JsValue = node match {
    case a: First => Json.toJson(a)
    case b: Second => Json.toJson(b)
    case _ => Json.obj("error" -> "wrong Json")
  }
}

// Example Usage....
val spark: SparkSession = SparkSession.builder.appName("Unit Test").getOrCreate()
val js: Container = First("unit", "test")

spark.createDataFrame(Seq(js))

我期望[Container Object]的数据集的输出,但实际输出是java.lang.UnsupportedOperationException:不支持Container类型的架构。

1 个答案:

答案 0 :(得分:0)

Spark不使用Play JSON中的类型类将Scala类型转换为Spark SQL类型。相反,您需要查看Spark Encoders,它构成了将Scala类型转换为Spark类型的基础。如果范围内有Spark会话,则可以使用import sparkSession.implicits._,以便它会自动为案例类创建编码器。我相信Spark不支持开箱即用的求和类型,因此您需要实现自己的Encoder以某种方式以临时方式在Spark中进行建模。如果您想在Spark中编码求和类型,请阅读here以获得更多信息