Question

我想编写Spark UDAF，其中列的类型可以是任何在其上定义了Scala Numeric的列。我通过互联网进行了搜索，但只找到了具体类型的示例，例如[key : value]，DoubleType。这不可能吗？但是如何将UDAF与其他数值一起使用？

Answer 1

为简单起见，我们假设您要定义自定义sum。您将为输入类型提供TypeTag并使用Scala反射来定义模式：

import org.apache.spark.sql.expressions._
import org.apache.spark.sql.types._
import org.apache.spark.sql.Row
import scala.reflect.runtime.universe._
import org.apache.spark.sql.catalyst.ScalaReflection.schemaFor

case class MySum [T : TypeTag](implicit n: Numeric[T]) 
    extends UserDefinedAggregateFunction {

  val dt = schemaFor[T].dataType
  def inputSchema = new StructType().add("x", dt)
  def bufferSchema = new StructType().add("x", dt)

  def dataType = dt
  def deterministic = true

  def initialize(buffer: MutableAggregationBuffer) = buffer.update(0,  n.zero)
  def update(buffer: MutableAggregationBuffer, input: Row) = {
    if (!input.isNullAt(0))
      buffer.update(0, n.plus(buffer.getAs[T](0), input.getAs[T](0)))
  }

  def merge(buffer1: MutableAggregationBuffer, buffer2: Row) = {
    buffer1.update(0, n.plus(buffer1.getAs[T](0),  buffer2.getAs[T](0)))    
  }

  def evaluate(buffer: Row) = buffer.getAs[T](0)
}

使用上面定义的函数，我们可以创建特定于实例的处理类型：

val sumOfLong = MySum[Long]
spark.range(10).select(sumOfLong($"id")).show

+---------+
|mysum(id)|
+---------+
|       45|
+---------+

注意：

要获得与内置聚合函数相同的灵活性，您必须定义自己的AggregateFunction，例如ImperativeAggregate或DeclarativeAggregate。这是可能的，但它是一个内部API。

Spark UDAF - 使用泛型作为输入类型？

1 个答案: