从Spark 1.5.0开始,似乎可以为DataFrame上的自定义聚合编写自己的UDAF: Spark 1.5 DataFrame API Highlights: Date/Time/String Handling, Time Intervals, and UDAFs
然而,我不清楚Python API是否支持此功能?
答案 0 :(得分:2)
您无法在Spark 1.5.0-2.0.0中定义Python UDAF。有一个JIRA跟踪此功能请求:
以目标解决"稍后"所以它可能很快就会发生。
您可以使用PySpark中的Scala UDAF - 它被描述为Spark: How to map Python with Scala or Java User Defined Functions?