我正准备一个带有id和我的特征向量的DataFrame,以便稍后用于预测。我在我的数据框架上做了一个groupBy,在我的groupBy中,我将几列作为列表合并到一个新列中:
def mergeFunction(...) // with 14 input variables
val myudffunction( mergeFunction ) // Spark doesn't support this
df.groupBy("id").agg(
collect_list(df(...)) as ...
... // too many of these (something like 14 of them)
).withColumn("features_labels",
myudffunction(
col(...)
, col(...) )
.select("id", "feature_labels")
这就是我创建我的特征向量及其标签的方式。到目前为止,它一直在为我工作,但这是我第一次使用这种方法的特征向量大于数字10,这是Spark接受的最大函数。
我不确定我还能解决这个问题吗?是否有udf输入的大小 火花会变得更大,我是否理解错误,或者 有更好的方法吗?
答案 0 :(得分:8)
用户定义的函数最多可定义22个参数。最多只有10个参数定义udf
个助手。要处理具有大量参数的函数,您可以使用org.apache.spark.sql.UDFRegistration
。
例如
val dummy = ((
x0: Int, x1: Int, x2: Int, x3: Int, x4: Int, x5: Int, x6: Int, x7: Int,
x8: Int, x9: Int, x10: Int, x11: Int, x12: Int, x13: Int, x14: Int,
x15: Int, x16: Int, x17: Int, x18: Int, x19: Int, x20: Int, x21: Int) => 1)
van注册:
import org.apache.spark.sql.expressions.UserDefinedFunction
val dummyUdf: UserDefinedFunction = spark.udf.register("dummy", dummy)
直接使用
val df = spark.range(1)
val exprs = (0 to 21).map(_ => lit(1))
df.select(dummyUdf(exprs: _*))
或通过callUdf
import org.apache.spark.sql.functions.callUDF
df.select(
callUDF("dummy", exprs: _*).alias("dummy")
)
或SQL表达式:
df.selectExpr(s"""dummy(${Seq.fill(22)(1).mkString(",")})""")
您还可以创建UserDefinedFunction
对象:
import org.apache.spark.sql.expressions.UserDefinedFunction
Seq(1).toDF.select(UserDefinedFunction(dummy, IntegerType, None)(exprs: _*))
实际上,拥有22个参数的函数并不是很有用,除非你想使用Scala反射生成这些参数,否则会有维护噩梦。
我会考虑使用集合(array
,map
)或struct
作为输入,或将其划分为多个模块。例如:
val aLongArray = array((0 to 256).map(_ => lit(1)): _*)
val udfWitharray = udf((xs: Seq[Int]) => 1)
Seq(1).toDF.select(udfWitharray(aLongArray).alias("dummy"))
答案 1 :(得分:6)
为了扩展零的答案,可以使用.withColumn()
函数来处理具有10个以上参数的UDF。只需要spark.udf.register()
该函数,然后使用expr
作为参数添加列(而不是udf
)。
例如,这样的事情应该有效:
def mergeFunction(...) // with 14 input variables
spark.udf.register("mergeFunction", mergeFunction) // make available in expressions
df.groupBy("id").agg(
collect_list(df(...)) as ...
... // too many of these (something like 14 of them)
).withColumn("features_labels",
expr("mergeFunction(col1, col2, col3, col4, ...)") ) //pass in the 14 column names
.select("id", "feature_labels")
底层表达式解析器似乎处理了10个以上的参数,所以我认为你不得不求助于传递数组来调用该函数。此外,如果它们的参数碰巧是不同的数据类型,那么数组将无法正常工作。