标签: pandas apache-spark pyspark
我正在查看Spark 2.3中的矢量化UDF。在此this video中,它讨论了(至少)两个问题。
我完全理解让数据科学家使用他们习惯的框架所带来的好处,并且从this link的性能角度来看,此功能具有很大的好处。没有人有任何数据说明其中有多少是由于序列化的改进而有多少是由熊猫引起的?