标签: apache-spark pyspark
我正在使用以下硬件在AWS上的一个小型(EM)EMR集群上工作:
这些实例的大小如下所示。
我的问题是,我在一个很大的表上运行了一个耗时长的计算过程(运行Shap值)。我正在使用熊猫UDF尝试加快此处理的速度(没有运行它是不可行的)。我正在将伪组标签创建为1到k之间的整数,并通过在Spark(pyspark)中进行处理来使用该组。我的问题是,是否有一种方法可以通过硬件配置来确定要创建多少组(“ k”)以便尽快处理所有数据?