PySpark-数据框列值操作错误

时间:2018-08-15 19:46:13

标签: dataframe pyspark

我有一个下面4列的数据框:

日期|代码sub_cat |销售

最后一列的数据类型为:sales是float。

我只想将numpy日志函数应用于该列,以下是我正在做的事情。

import numpy as np
from pyspark.sql.functions import udf

log_func = udf(lambda x : np.log(x))

df.withColumn("sales",log_func(df['sales'])).show()

以下是我得到的错误:

Py4JJavaError:调用o278.showString时发生错误。

由于我不确定我的代码有什么问题,因此可以提供任何帮助。

0 个答案:

没有答案