与HortonWorks或Cloudera不同,AWS EMR似乎没有提供任何GUI来更改各种hadoop生态系统框架的xml配置。
登录我的EMR名称节点并快速执行
find \ -iname yarn-site.xml
我能够找到它位于/etc/hadoop/conf.empty/yarn-site.xml
,而容量调度程序位于/etc/hadoop/conf.empty/capacity-scheduler.xml
。
但是请注意这些是如何处于conf.empty之下的,我怀疑这些可能不是纱线网站和容量调度程序xmls的实际位置。
我知道我可以在制作群集时更改这些配置,但我需要知道的是如何在不撕裂群集的情况下更改它们。
我只想玩调度属性等,并尝试使用不同的调度程序来确定我的spark应用程序可能会起什么作用。
提前致谢!
答案 0 :(得分:13)
嗯,yarn-site.xml
和capacity-scheduler.xml
确实位于正确的位置(/etc/hadoop/conf.empty/
),在正在运行的群集上,在主节点上编辑它们并重新启动YARN RM守护程序将更改调度程序。
启动新群集时,您可以使用EMR Configurations API
更改相应的值。 http://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-configure-apps.html
例如:在Configuration for EMR上的capacity-scheduler and yarn-site classifications
中指定适当的值,以更改相应XML文件中的值。