优化/调整设置以激发作业,其中作业使用groupbyKey和reduceGroups

时间:2018-01-22 23:49:51

标签: scala apache-spark

您好我正在尝试查看是否有任何设置,例如执行程序内存,内核,随机分区或我们可以想到的任何可能加快包含unionGroupByKey和{的工作的任何设置{1}}操作

我理解要执行的这些激烈操作,目前需要5个小时才能完成此操作。

示例:

reduceGroups

火花提交

.union(transitive)
  .union(family)
  .groupByKey(_.key)
  .reduceGroups((left, right) =>

功能

"Step5_Spark_Command": "command-runner.jar,spark-submit,--class,com.ms.eng.link.modules.linkmod.Links,--name,\\\"Links\\\",--master,yarn,--deploy-mode,client,--executor-memory,32G,--executor-cores,4,--conf,spark.sql.shuffle.partitions=2020,/home/hadoop/linking.jar,jobId=#{myJobId},environment=prod",

enter image description here

1 个答案:

答案 0 :(得分:0)

通过查看你的spark-submit命令,我可以看到你在YARN上运行Spark。但我可以问一下为什么在客户端模式下?实际上,在您的情况下,您的驱动程序和执行程序都只在本地创建,而不是完全利用集群的资源。因此,请改用--deploy-mode cluster。

对于硬件配置,请使用此link

希望,这有助于扩展您的应用。