我有一个大约有100万行的Spark数据帧。我正在使用pyspark并且必须在数据帧的每一列上从scipy库应用box-cox转换。但是box-cox函数只允许1-d numpy数组作为输入。我怎样才能有效地做到这一点?
numpy数组是否在spark上分发,或者它将所有元素收集到运行驱动程序的单个节点上?
suppose df is my dataframe with column as C1
那么,我想执行与此类似的操作
stats.boxcox(df.select("C1"))
答案 0 :(得分:0)
Spark中的数据帧/ RDD允许从处理的分布方式中抽象出来。
为了满足您的需求,我认为UDF非常有用。在这里您可以看到它的一个使用示例: