熊猫UDF最佳组数

时间:2020-06-22 13:27:32

标签: apache-spark pyspark

我正在使用以下硬件在AWS上的一个小型(EM)EMR集群上工作:

  • 1个大师:m5.12xlarge
  • 4名工人:m5.12xlarge

这些实例的大小如下所示。

enter image description here

我的问题是,我在一个很大的表上运行了一个耗时长的计算过程(运行Shap值)。我正在使用熊猫UDF尝试加快此处理的速度(没有运行它是不可行的)。我正在将伪组标签创建为1到k之间的整数,并通过在Spark(pyspark)中进行处理来使用该组。我的问题是,是否有一种方法可以通过硬件配置来确定要创建多少组(“ k”)以便尽快处理所有数据?

0 个答案:

没有答案