我有一个spark
应用yarn scheduler
(yarn-client
模式,fair
调度程序),其中Stage
- 1正在从{{读取160多个文件1}}。显示S3
的快照如下所示:
问题:
Event Timeline
中两个cores
并行读取文件的原因是什么?哪些因素决定executor
将使用多少physical cores
?有保证的设置吗?
修改-1
从Spark Yarn Configuration article
引用:
“核心请求是否在调度决策中得到遵守取决于正在使用的调度程序及其配置方式。”
核心请求似乎受Yarn调度程序设置的约束。有人可以指出哪些设置对此负责吗?