如何有效地将Spark数据帧列转换为Numpy数组?

时间:2016-07-10 08:39:19

标签: python numpy pyspark

我有一个大约有100万行的Spark数据帧。我正在使用pyspark并且必须在数据帧的每一列上从scipy库应用box-cox转换。但是box-cox函数只允许1-d numpy数组作为输入。我怎样才能有效地做到这一点?

numpy数组是否在spark上分发,或者它将所有元素收集到运行驱动程序的单个节点上?

suppose df is my dataframe with column as C1  那么,我想执行与此类似的操作

stats.boxcox(df.select("C1"))

1 个答案:

答案 0 :(得分:0)

Spark中的数据帧/ RDD允许从处理的分布方式中抽象出来。

为了满足您的需求,我认为UDF非常有用。在这里您可以看到它的一个使用示例:

Functions from Python packages for udf() of Spark dataframe