向量化UDF的性能增强有哪些细分?

时间:2019-03-12 20:41:57

标签: pandas apache-spark pyspark

我正在查看Spark 2.3中的矢量化UDF。在此this video中,它讨论了(至少)两个问题。

  • 慢速序列化
  • python中无效的数据结构

我完全理解让数据科学家使用他们习惯的框架所带来的好处,并且从this link的性能角度来看,此功能具有很大的好处。没有人有任何数据说明其中有多少是由于序列化的改进而有多少是由熊猫引起的?

0 个答案:

没有答案