Python API中是否提供Spark SQL UDAF(用户定义的聚合函数)?

时间:2015-11-03 15:00:28

标签: apache-spark apache-spark-sql spark-dataframe

从Spark 1.5.0开始,似乎可以为DataFrame上的自定义聚合编写自己的UDAF: Spark 1.5 DataFrame API Highlights: Date/Time/String Handling, Time Intervals, and UDAFs

然而,我不清楚Python API是否支持此功能?

1 个答案:

答案 0 :(得分:2)

您无法在Spark 1.5.0-2.0.0中定义Python UDAF。有一个JIRA跟踪此功能请求:

以目标解决"稍后"所以它可能很快就会发生。

您可以使用PySpark中的Scala UDAF - 它被描述为Spark: How to map Python with Scala or Java User Defined Functions?