应用错误收集

指定并发hadoop作业中的映射槽数

时间：2013-12-16 06:18:38

标签： hadoop

我有一个运行的hadoop系统。它共有8个并行的映射槽。 DFS块大小为128M。

现在假设我有两个工作：它们都有大的输入文件，比如一百G。我希望它们在hadoop系统中并行运行。（因为用户不想等待。他们希望看到一些进展。）我希望第一个并行获取5个映射插槽，第二个在其余3个映射插槽上运行。是否可以指定映射槽的数量？目前我使用命令行将其作为Hadoop jar jarfile类名输入输出启动。我可以在命令行中指定它吗？

非常感谢您的帮助。

1 个答案:

答案 0 :(得分：0)

可以使用Scheduler完成资源分配。 Classic Hadoop使用JobQueueTaskScheduler，而YARN默认使用CapacityScheduler。根据Hadoop documentation

本文档描述了CapacityScheduler，它是Hadoop的可插拔调度程序，允许多租户安全地共享大型集群，以便在分配容量的限制下及时为其应用程序分配资源。