如何在Java / Kotlin中创建返回复杂类型的Spark UDF?

时间:2018-06-20 13:26:27

标签: java apache-spark kotlin user-defined-functions

我正在尝试编写一个返回复杂类型的UDF:

private val toPrice = UDF1<String, Map<String, String>> { s ->
    val elements = s.split(" ")
    mapOf("value" to elements[0], "currency" to elements[1])
}


val type = DataTypes.createStructType(listOf(
        DataTypes.createStructField("value", DataTypes.StringType, false),
        DataTypes.createStructField("currency", DataTypes.StringType, false)))
df.sqlContext().udf().register("toPrice", toPrice, type)

但是任何时候我使用这个:

df = df.withColumn("price", callUDF("toPrice", col("price")))

我收到一个隐秘错误:

Caused by: org.apache.spark.SparkException: Failed to execute user defined function($anonfun$28: (string) => struct<value:string,currency:string>)
    at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIteratorForCodegenStage1.processNext(Unknown Source)
    at org.apache.spark.sql.execution.BufferedRowIterator.hasNext(BufferedRowIterator.java:43)
    at org.apache.spark.sql.execution.WholeStageCodegenExec$$anonfun$10$$anon$1.hasNext(WholeStageCodegenExec.scala:614)
    at org.apache.spark.sql.execution.SparkPlan$$anonfun$2.apply(SparkPlan.scala:253)
    at org.apache.spark.sql.execution.SparkPlan$$anonfun$2.apply(SparkPlan.scala:247)
    at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$25.apply(RDD.scala:830)
    at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$25.apply(RDD.scala:830)
    at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:324)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:288)
    at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:324)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:288)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87)
    at org.apache.spark.scheduler.Task.run(Task.scala:109)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:345)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
    at java.lang.Thread.run(Thread.java:748)
Caused by: scala.MatchError: {value=138.0, currency=USD} (of class java.util.LinkedHashMap)
    at org.apache.spark.sql.catalyst.CatalystTypeConverters$StructConverter.toCatalystImpl(CatalystTypeConverters.scala:236)
    at org.apache.spark.sql.catalyst.CatalystTypeConverters$StructConverter.toCatalystImpl(CatalystTypeConverters.scala:231)
    at org.apache.spark.sql.catalyst.CatalystTypeConverters$CatalystTypeConverter.toCatalyst(CatalystTypeConverters.scala:103)
    at org.apache.spark.sql.catalyst.CatalystTypeConverters$$anonfun$createToCatalystConverter$2.apply(CatalystTypeConverters.scala:379)
    ... 19 more

我尝试使用自定义数据类型:

class Price(val value: Double, val currency: String) : Serializable

带有返回该类型的UDF:

private val toPrice = UDF1<String, Price> { s ->
    val elements = s.split(" ")
    Price(elements[0].toDouble(), elements[1])
}

但是我又得到另一个MatchError类型的Price

如何正确编写可以返回复杂类型的UDF?

2 个答案:

答案 0 :(得分:2)

TL; DR 该函数应返回org.apache.spark.sql.Row类的对象。

Spark提供了UDF定义的两个主要变体。

    使用Scala反射的
  1. udf变体:

    • def udf[RT](f: () ⇒ RT)(implicit arg0: TypeTag[RT]): UserDefinedFunction
    • def udf[RT, A1](f: (A1) ⇒ RT)(implicit arg0: TypeTag[RT], arg1: TypeTag[A1]): UserDefinedFunction
    • ...
    • def udf[RT, A1, A2, ..., A10](f: (A1, A2, ..., A10) ⇒ RT)(implicit arg0: TypeTag[RT], arg1: TypeTag[A1], arg2: TypeTag[A2], ..., arg10: TypeTag[A10])

    定义

      

    ...自变量的标量关闭作为用户定义的函数(UDF)。数据类型是根据Scala闭包的签名自动推断的。

    这些变体不带原子或代数数据类型的架构使用。例如,有问题的函数将在Scala中定义:

    case class Price(value: Double, currency: String) 
    
    val df = Seq("1 USD").toDF("price")
    
    val toPrice = udf((s: String) => scala.util.Try { 
      s split(" ") match {
        case Array(price, currency) => Price(price.toDouble, currency)
      }
    }.toOption)
    
    df.select(toPrice($"price")).show
    // +----------+
    // |UDF(price)|
    // +----------+
    // |[1.0, USD]|
    // +----------+
    

    在此变体中,返回类型会自动编码。

    由于它依赖反射,因此该变体主要供Scala用户使用。

  2. 提供模式定义的
  3. udf变体(您在此处使用的变体)。此变体的返回类型应与Dataset[Row]的返回类型相同:

    • 如其他答案中所指出的,您只能使用SQL types mapping table中列出的类型(盒装或未盒装的原子类型,java.sql.Timestamp / java.sql.Date,以及高级收藏)。

    • 复杂结构(structs / StructTypes)使用org.apache.spark.sql.Row表示。不允许与代数数据类型或等效数据类型混合。例如(标量代码)

      struct<_1:int,_2:struct<_1:string,_2:struct<_1:double,_2:int>>>
      

      应表示为

      Row(1, Row("foo", Row(-1.0, 42))))
      

      不是

      (1, ("foo", (-1.0, 42))))
      

      或任何混合变体,例如

      Row(1, Row("foo", (-1.0, 42))))
      

    提供此变体主要是为了确保Java的互操作性。

    在这种情况下(相当于所讨论的问题),定义应类似于以下内容:

    import org.apache.spark.sql.types._
    import org.apache.spark.sql.functions.udf
    import org.apache.spark.sql.Row
    
    
    val schema = StructType(Seq(
      StructField("value", DoubleType, false),
      StructField("currency", StringType, false)
    ))
    
    val toPrice = udf((s: String) => scala.util.Try { 
      s split(" ") match {
        case Array(price, currency) => Row(price.toDouble, currency)
      }
    }.getOrElse(null), schema)
    
    df.select(toPrice($"price")).show
    // +----------+
    // |UDF(price)|
    // +----------+
    // |[1.0, USD]|
    // |      null|
    // +----------+
    

    排除所有异常处理的细微差别(通常UDFs应该控制null输入,并且按照惯例妥善处理格式错误的数据),Java等效项应该看起来像这样:

    UserDefinedFunction price = udf((String s) -> {
        String[] split = s.split(" ");
        return RowFactory.create(Double.parseDouble(split[0]), split[1]);
    }, DataTypes.createStructType(new StructField[]{
        DataTypes.createStructField("value", DataTypes.DoubleType, true),
        DataTypes.createStructField("currency", DataTypes.StringType, true)
    }));
    

上下文

为了给您一些上下文,这种区别也反映在API的其他部分中。例如,您可以根据架构和一系列DataFrame创建Rows

def createDataFrame(rows: List[Row], schema: StructType): DataFrame 

或使用具有Products序列的反射

def createDataFrame[A <: Product](data: Seq[A])(implicit arg0: TypeTag[A]): DataFrame 

,但不支持混合的变体。

换句话说,您应该提供可以使用RowEncoder进行编码的输入。

当然,您通常不会使用udf这样的任务:

import org.apache.spark.sql.functions._

df.withColumn("price", struct(
  split($"price", " ")(0).cast("double").alias("price"),
  split($"price", " ")(1).alias("currency")
))

相关

答案 1 :(得分:1)

很简单。转到Data Types Reference并找到相应的类型。

在Spark 2.3中

  • 如果您将返回类型声明为StructType,则功能必须返回org.apache.spark.sql.Row
  • 如果您返回Map<String, String>,则函数返回类型应该为MapType-显然不是您想要的。