您好我正在尝试查看是否有任何设置,例如执行程序内存,内核,随机分区或我们可以想到的任何可能加快包含union
,GroupByKey
和{的工作的任何设置{1}}操作
我理解要执行的这些激烈操作,目前需要5个小时才能完成此操作。
示例:
reduceGroups
火花提交
.union(transitive)
.union(family)
.groupByKey(_.key)
.reduceGroups((left, right) =>
功能
"Step5_Spark_Command": "command-runner.jar,spark-submit,--class,com.ms.eng.link.modules.linkmod.Links,--name,\\\"Links\\\",--master,yarn,--deploy-mode,client,--executor-memory,32G,--executor-cores,4,--conf,spark.sql.shuffle.partitions=2020,/home/hadoop/linking.jar,jobId=#{myJobId},environment=prod",
答案 0 :(得分:0)
通过查看你的spark-submit命令,我可以看到你在YARN上运行Spark。但我可以问一下为什么在客户端模式下?实际上,在您的情况下,您的驱动程序和执行程序都只在本地创建,而不是完全利用集群的资源。因此,请改用--deploy-mode cluster。
对于硬件配置,请使用此link。
希望,这有助于扩展您的应用。