如何在Spark SQL中将额外参数传递给UDF?

时间:2016-02-22 05:47:54

标签: scala apache-spark apache-spark-sql user-defined-functions

我想解析DataFrame中的日期列,并且对于每个日期列,日期的分辨率可能会发生变化(即2011/01/10 => 2011/01,如果分辨率设置为“月”)。

我写了以下代码:

def convertDataFrame(dataframe: DataFrame, schema : Array[FieldDataType], resolution: Array[DateResolutionType]) : DataFrame =
{
  import org.apache.spark.sql.functions._
  val convertDateFunc = udf{(x:String, resolution: DateResolutionType) => SparkDateTimeConverter.convertDate(x, resolution)}
  val convertDateTimeFunc = udf{(x:String, resolution: DateResolutionType) => SparkDateTimeConverter.convertDateTime(x, resolution)}

  val allColNames = dataframe.columns
  val allCols = allColNames.map(name => dataframe.col(name))

  val mappedCols =
  {
    for(i <- allCols.indices) yield
    {
      schema(i) match
      {
        case FieldDataType.Date => convertDateFunc(allCols(i), resolution(i)))
        case FieldDataType.DateTime => convertDateTimeFunc(allCols(i), resolution(i))
        case _ => allCols(i)
      }
    }
  }

  dataframe.select(mappedCols:_*)

}}

然而它不起作用。似乎我只能将Column传递给UDF。如果我将DataFrame转换为RDD并在每一行上应用该函数,我想知道它是否会非常慢。

有谁知道正确的解决方案?谢谢!

2 个答案:

答案 0 :(得分:34)

只是稍微使用一下:

def convertDateFunc(resolution: DateResolutionType) = udf((x:String) => 
  SparkDateTimeConverter.convertDate(x, resolution))

并按如下方式使用:

case FieldDataType.Date => convertDateFunc(resolution(i))(allCols(i))

在旁注中,您应该查看sql.functions.truncsql.functions.date_format。这些至少应该是部分工作而根本不使用UDF。

注意

在Spark 2.2或更高版本中,您可以使用typedLit功能:

import org.apache.spark.sql.functions.typedLit

支持更广泛的文字,例如SeqMap

答案 1 :(得分:13)

您可以使用Column

中定义的lit(...)函数创建文字org.apache.spark.sql.functions以传递给udf

例如:

val takeRight = udf((s: String, i: Int) => s.takeRight(i))
df.select(takeRight($"stringCol", lit(1)))