标签: apache-spark pyspark emr
我正在运行一个由单个阶段组成的pyspark应用程序。阶段中的任务数量取决于分区的数量,因此存在阶段中的多个任务。我想根据它携带的分区大小来安排任务。例如 - 应首先安排具有较大分区的任务。
有没有办法用我们自己的算法在spark工作中安排任务?