hadoop FIFO调度不会使提交的作业并行运行?

时间:2012-04-24 09:00:16

标签: hadoop parallel-processing fifo

我已经使用4000个地图配置了地图容量,并根据我对FIFO模式和链接的理解,使用500个地图配置每个作业 Running jobs parallely in hadoop  如果我提交8份工作,这8份工作应该并行运行,对吗?但是,我仍然看到我提交的8个工作顺序运行,这让我感到奇怪。 另一种方法是尝试公平的调度程序,但我有一些其他运行错误... 如何使这个并行运行?

我现在是唯一的用户。

问题:作业跟踪器网络用户界面显示的总运行工作是什么?

实际上我提交了80个职位,所以所有职位都成功提交,因为我可以看到80个职位 在“正在运行的作业”部分下,但它们只是按顺序运行

问题:您目前处理的输入文件数量是多少?这与工作的地图制作者的数量有什么关系?

因为对于每个作业,我通过mapred-site.xml设置map.task.num = 500来配置500个地图。

以下是信息

种类%完成任务正在等待运行完成已杀死/已杀死任务尝试

地图1.40%500 402 91 7 0 0/0

减少0.00%1 1 0 0 0 0/0

问题:您可以将输入格式配置为仅运行500个地图,但有时Hadoop会忽略此值:例如,如果您有超过500个输入文件。

我确信这不会发生,因为我自定义了inputformat,因此要运行的映射器数量正是我在mapred-site.xml中配置的映射器数量

问题:当你开始工作时,你运行了多少文件,你正在使用什么样的输入格式,以及你在输入文件上使用了什么文件压缩

好吧,我实际上只运行一个文件,但是这个文件将完全加载到所有maptasks,所以我实际上使用distrbutecache机制让每个maptask完全加载这个文件。我目前没有使用压缩

问题:作业跟踪器显示配置的映射器和缩减器插槽总数是多少?这是否符合您的预期值5000?

以下是信息

地图减少TotalSubmissions节点地图任务容量减少任务容量平均。任务/节点列入黑名单的节点

83 0 80 8 4000 80 510.00 0

1 个答案:

答案 0 :(得分:0)

无论您运行FairScheduler还是CapacityScheduler,您仍然可以并行运行作业,但有一些原因可能会导致您的作业按顺序运行:

  • 您是否是唯一使用群集的人,如果没有,有多少人正在使用群集:
    • 问题:作业跟踪器网络用户界面显示的总运行工作是什么?
  • 如果您确实是特定时间点在群集上运行的唯一作业,请检查Job Tracker Web UI以查找当前正在运行的作业 - 您当前正在处理多少输入文件?这与工作的地图制作者的数量有什么关系?
    • 您可以将输入格式配置为仅运行500个地图,但有时Hadoop会忽略此值:例如,如果您有超过500个输入文件。
    • 问题:当你开始工作时,你运行了多少文件,你正在使用的输入格式是什么,以及你在输入文件上使用了什么文件压缩
  • 问题:作业跟踪器显示配置的映射器和缩减器插槽的总数是多少?这是否符合您的预期值5000?