spark_partition_id需要花费几个小时来执行,如何提高其性能

时间:2019-05-06 06:40:27

标签: apache-spark apache-spark-sql datastax

作为我的spark程序的一部分,我正在如下使用spark_partition_id来理解每个分区的计数,如下所示:

df.groupBy(spark_partition_id().alias("partition_id")).count().orderBy("partition_id").show();

在使用spark-sql-2.4.1v将其读入数据帧“ df”之后,我在oracle表中有20亿条记录。

当我确实要在10个小时内执行以上行时。

我正在使用以下参数:

--executor-cores 3 \
--executor-memory 15g \
--num-executors 5 \
--driver-cores 2 \
--driver-memory 4g \

这是怎么回事,这导致spark_partition_id()花费了很长时间?

感谢您提出任何建议。

0 个答案:

没有答案