应用错误收集

pyspark udf一次处理多行

时间：2018-08-23 10:19:33

标签： pyspark

阅读此博客： Introducing Pandas UDF for PySpark

我承认使用@udf一次可处理一行，但是使用@pandas_udf一次可处理多行（作为熊猫），并且速度更快。

为什么有必要将spark数据框转换为pandas数据框以实现此目的（一次处理多行）？ @udf不能一次仅获取spark数据帧的一部分并避免这种转换吗？是因为spark数据帧没有像熊猫那样一次优化处理多行吗？如果是这样，为什么？

谢谢〜

0 个答案:

没有答案