Question

我想要一个用于Spark Sql的concat函数。我写了一个udf作为

sqlContext.udf.register("CONCAT",(args:String*)=>{
 String out=""
 for(arg<-args)
  {
    out+=arg
  }
 out
})

sqlContext.sql("select col1,col2,CONCAT(col1,col2) from testtable")

但是这个udf没有用，我得到了一个例外。如果我尝试使用固定数量的参数，那么它的工作原理。我使用spark 1.3.1和scala 2.10.5。

是否有人遇到此问题或者知道解决方案？

Answer 1

您可以使用struct功能执行此操作，如下所示：

val myUDF = udf {
  (r: Row) => r.toSeq.map(...) // the "r" row contains your arguments
}
val df = ....
df.select(col("col1"), myUDF(struct(col("col2"), col("col3"), col("col4"), ...)))

Answer 2

如果您只想使用原始SQL连接列，则根本不需要自定义UDF。 CONCAT功能已经存在：

val df = sc.parallelize(List(("a", "b", "c"))).toDF("x", "y", "z")
df.registerTempTable("df")
sqlContext.sql("SELECT CONCAT(x, y, z) AS xyz FROM df").show

// +---+
// |xyz|
// +---+
// |abc|
// +---+

从1.5.0开始，您可以直接使用concat / concat_ws函数：

import org.apache.spark.sql.functions.{concat, concat_ws}

df.select(concat_ws("-", $"x", $"y", $"z").alias("x-y-z")).show
// +-----+
// |x-y-z|
// +-----+
// |a-b-c|
// +-----+

df.select(concat($"x", $"y", $"z").alias("xyz")).show

// +---+
// |xyz|
// +---+
// |abc|
// +---+

另见Spark UDF with varargs

具有可变参数数量的Spark Sql udf

2 个答案: