标签: pyspark
阅读此博客: Introducing Pandas UDF for PySpark
我承认使用@udf一次可处理一行,但是使用@pandas_udf一次可处理多行(作为熊猫),并且速度更快。
@udf
@pandas_udf
为什么有必要将spark数据框转换为pandas数据框以实现此目的(一次处理多行)? @udf不能一次仅获取spark数据帧的一部分并避免这种转换吗?是因为spark数据帧没有像熊猫那样一次优化处理多行吗?如果是这样,为什么?
谢谢〜