作为我的spark程序的一部分,我正在如下使用spark_partition_id来理解每个分区的计数,如下所示:
df.groupBy(spark_partition_id().alias("partition_id")).count().orderBy("partition_id").show();
在使用spark-sql-2.4.1v将其读入数据帧“ df”之后,我在oracle表中有20亿条记录。
当我确实要在10个小时内执行以上行时。
我正在使用以下参数:
--executor-cores 3 \
--executor-memory 15g \
--num-executors 5 \
--driver-cores 2 \
--driver-memory 4g \
这是怎么回事,这导致spark_partition_id()花费了很长时间?
感谢您提出任何建议。