我在AWS上有一个EMR集群,其中有一个主服务器和两个工作器。三台机器(一台主机和两名工人)中的每台都具有4个CPU和15 GB的内存。它们是m3.xlarge类型的。
我正在使用sc <- spark_connect(master = "yarn-client")
连接到集群。
提交工作后,我可以看到只有一个工人处于活动状态,而另一个工人保持空闲状态。
我是R用户,并且正在使用sparklyr
软件包进行工作。
这里可能出什么问题了?我尝试为配置参数spark.executor.cores
,spark.executor.instances
,spark.executor.memory
和spark.default.parallelism
设置不同的值,但到目前为止无济于事。
任何帮助将不胜感激。我已经阅读了有关该主题的其他相关文章,但未能成功。
conf$spark.executor.cores = 1
conf$spark.executor.instances = 11
conf$spark.executor.memory = "3409M"
conf$spark.default.parallelism = 11