在Spark 2.2中使用pandas_udf

时间:2019-05-04 10:28:36

标签: pandas pyspark user-defined-functions

在pyspark 2.2中仍然可以使用pandas_udf

1 个答案:

答案 0 :(得分:0)

实际上,您正在创建一个函数,然后从该给定函数创建pandas_udf。 如果要将其用作pyspark udf,则要做的就是从该函数创建pyspark udf。 通过databricks文档上的给定示例:

from pyspark.sql.functions import *
from pyspark.sql.types import *

def multiply_func(a, b):
    return a * b

#the return type depends on your values, so it can be DoubleType()
multiply_func_udf = udf(lambda x,y: multiply_func(x,y), IntegerType())

#then you can call like
spark_df.withColumn("multiplied_values",multiply_func_udf(col("x"),col("y"))