Question

我有一个大约有100万行的Spark数据帧。我正在使用pyspark并且必须在数据帧的每一列上从scipy库应用box-cox转换。但是box-cox函数只允许1-d numpy数组作为输入。我怎样才能有效地做到这一点？

numpy数组是否在spark上分发，或者它将所有元素收集到运行驱动程序的单个节点上？

suppose df is my dataframe with column as C1 那么，我想执行与此类似的操作

stats.boxcox(df.select("C1"))

Answer 1

Spark中的数据帧/ RDD允许从处理的分布方式中抽象出来。

为了满足您的需求，我认为UDF非常有用。在这里您可以看到它的一个使用示例：