在pyspark中编写自定义UDAF

时间:2019-04-04 01:46:58

标签: python pandas pyspark user-defined-functions

我需要编写一个pySpark自定义UDAF,我遇到了这个示例 Applying UDFs on GroupedData in PySpark (with functioning python example)。在类似的行上,如该线程的最后一部分所示,我想出了以下函数

from pyspark.sql.types import *

schema = StructType([
    StructField("key", StringType()),
    StructField("avg_value1", DoubleType()),
    StructField("avg_value2", DoubleType()),
    StructField("sum_avg", DoubleType()),
    StructField("sub_avg", DoubleType()),
    StructField("bf_signature", Binary())
])

@pandas_udf(schema, functionType=PandasUDFType.GROUPED_MAP)
def g(df):
    gr = df['key'].iloc[0]
    x = df.value1.mean()
    y = df.value2.mean()
    w = df.value1.mean() + df.value2.mean()
    z = df.value1.mean() - df.value2.mean()
    bloomfilter = BloomFilter(8, 1)
    bloomfilter.set(df.value1)
    p=bloomfilter
    return pd.DataFrame([[gr]+[x]+[y]+[w]+[z]+[p]])

df3.groupby("key").apply(g).show()

如代码中所示,我想创建一个自定义的BloomFilter,它将为整个列构建Bloomfilter,类似于mean()函数处理聚合整个列并为每个组产生一个聚合结果。

如何用python编写此自定义UDAF?

1 个答案:

答案 0 :(得分:1)

也许这个blog有用,不是真正的python UDAF,但是写类似的功能是hack。

黑客是:

  1. 将groupBy应用于DF
  2. 在agg()函数中应用collect_list()
  3. 将普通的python UDF函数应用到collect_list()的结果列表中