应用错误收集

我正在使用以下硬件在AWS上的一个小型（EM）EMR集群上工作：

1个大师：m5.12xlarge
4名工人：m5.12xlarge

这些实例的大小如下所示。

我的问题是，我在一个很大的表上运行了一个耗时长的计算过程（运行Shap值）。我正在使用熊猫UDF尝试加快此处理的速度（没有运行它是不可行的）。我正在将伪组标签创建为1到k之间的整数，并通过在Spark（pyspark）中进行处理来使用该组。我的问题是，是否有一种方法可以通过硬件配置来确定要创建多少组（“ k”）以便尽快处理所有数据？

熊猫UDF最佳组数

0 个答案: