pyspark udf一次处理多行

时间:2018-08-23 10:19:33

标签: pyspark

阅读此博客: Introducing Pandas UDF for PySpark

我承认使用@udf一次可处理一行,但是使用@pandas_udf一次可处理多行(作为熊猫),并且速度更快。

为什么有必要将spark数据框转换为pandas数据框以实现此目的(一次处理多行)? @udf不能一次仅获取spark数据帧的一部分并避免这种转换吗?是因为spark数据帧没有像熊猫那样一次优化处理多行吗?如果是这样,为什么?

谢谢〜

0 个答案:

没有答案