我有一个运行的hadoop系统。它共有8个并行的映射槽。 DFS块大小为128M。
现在假设我有两个工作:它们都有大的输入文件,比如一百G。我希望它们在hadoop系统中并行运行。 (因为用户不想等待。他们希望看到一些进展。)我希望第一个并行获取5个映射插槽,第二个在其余3个映射插槽上运行。是否可以指定映射槽的数量?目前我使用命令行将其作为Hadoop jar jarfile类名输入输出启动。我可以在命令行中指定它吗?
非常感谢您的帮助。
答案 0 :(得分:0)
可以使用Scheduler完成资源分配。 Classic Hadoop使用JobQueueTaskScheduler,而YARN默认使用CapacityScheduler。根据Hadoop documentation
本文档描述了CapacityScheduler,它是Hadoop的可插拔调度程序,允许多租户安全地共享大型集群,以便在分配容量的限制下及时为其应用程序分配资源。