在pyspark.sql模块的apply()文档中,提供了在函数“ pandas_udf()”之前包含冒号的代码。这是什么意思,为什么包括在内?我在尝试运行该行时遇到语法错误。文档中的代码如下。
运行代码显然给了我一个语法错误。还尝试了去除结肠,但没有运气。
TIFs
答案 0 :(得分:0)
这是文档错误。 pandas_udf
被用作装饰器,因此应在@
之前而不是:
此示例应该有效:
from pyspark.sql.functions import pandas_udf, PandasUDFType
# Use pandas_udf to define a Pandas UDF
@pandas_udf('double', PandasUDFType.SCALAR)
# Input/output are both a pandas.Series of doubles
def pandas_plus_one(v):
return v + 1
df.withColumn('v2', pandas_plus_one(df.v))