Question

您好我正在尝试查看是否有任何设置，例如执行程序内存，内核，随机分区或我们可以想到的任何可能加快包含union，GroupByKey和{的工作的任何设置{1}}操作

我理解要执行的这些激烈操作，目前需要5个小时才能完成此操作。

示例：

reduceGroups

火花提交

.union(transitive)
  .union(family)
  .groupByKey(_.key)
  .reduceGroups((left, right) =>

功能

"Step5_Spark_Command": "command-runner.jar,spark-submit,--class,com.ms.eng.link.modules.linkmod.Links,--name,\\\"Links\\\",--master,yarn,--deploy-mode,client,--executor-memory,32G,--executor-cores,4,--conf,spark.sql.shuffle.partitions=2020,/home/hadoop/linking.jar,jobId=#{myJobId},environment=prod",

Answer 1

通过查看你的spark-submit命令，我可以看到你在YARN上运行Spark。但我可以问一下为什么在客户端模式下？实际上，在您的情况下，您的驱动程序和执行程序都只在本地创建，而不是完全利用集群的资源。因此，请改用--deploy-mode cluster。

对于硬件配置，请使用此link。

希望，这有助于扩展您的应用。

优化/调整设置以激发作业，其中作业使用groupbyKey和reduceGroups

1 个答案: