Spark程序在群集上运行非常慢

时间:2017-09-13 08:14:22

标签: hadoop apache-spark pyspark yarn spark-submit

我正在尝试在群集中运行我的 PySpark ,其中包含2个节点和1个主节点(均具有16 Gb RAM)。我用下面的命令运行我的火花。

  

spark-submit --master yarn --deploy-mode cluster --name“Pyspark”   --num-executors 40 --executor-memory 2g CD.py

但是我的代码运行速度非常慢,解析8.2 GB的数据需要将近1小时。 然后我尝试更改 YARN 中的配置。我更改了以下属性。

yarn.scheduler.increment-allocation-mb = 2 GiB

yarn.scheduler.minimum-allocation-mb = 2 GiB

yarn.scheduler.increment-allocation-mb = 2 GiB

yarn.scheduler.maximum-allocation-mb = 2 GiB

执行这些更改后,我的火花仍然非常慢,需要1个多小时来解析8.2 GB的文件。

1 个答案:

答案 0 :(得分:1)

您可以尝试使用以下配置

spark.executor.memory 5g

spark.executor.cores 5

spark.executor.instances 3

spark.driver.cores 2