我已经使用4000个地图配置了地图容量,并根据我对FIFO模式和链接的理解,使用500个地图配置每个作业 Running jobs parallely in hadoop 如果我提交8份工作,这8份工作应该并行运行,对吗?但是,我仍然看到我提交的8个工作顺序运行,这让我感到奇怪。 另一种方法是尝试公平的调度程序,但我有一些其他运行错误... 如何使这个并行运行?
我现在是唯一的用户。
问题:作业跟踪器网络用户界面显示的总运行工作是什么?
实际上我提交了80个职位,所以所有职位都成功提交,因为我可以看到80个职位 在“正在运行的作业”部分下,但它们只是按顺序运行
问题:您目前处理的输入文件数量是多少?这与工作的地图制作者的数量有什么关系?
因为对于每个作业,我通过mapred-site.xml设置map.task.num = 500来配置500个地图。
以下是信息
种类%完成任务正在等待运行完成已杀死/已杀死任务尝试
地图1.40%500 402 91 7 0 0/0
减少0.00%1 1 0 0 0 0/0
问题:您可以将输入格式配置为仅运行500个地图,但有时Hadoop会忽略此值:例如,如果您有超过500个输入文件。
我确信这不会发生,因为我自定义了inputformat,因此要运行的映射器数量正是我在mapred-site.xml中配置的映射器数量
问题:当你开始工作时,你运行了多少文件,你正在使用什么样的输入格式,以及你在输入文件上使用了什么文件压缩
好吧,我实际上只运行一个文件,但是这个文件将完全加载到所有maptasks,所以我实际上使用distrbutecache机制让每个maptask完全加载这个文件。我目前没有使用压缩
问题:作业跟踪器显示配置的映射器和缩减器插槽总数是多少?这是否符合您的预期值5000?
以下是信息
地图减少TotalSubmissions节点地图任务容量减少任务容量平均。任务/节点列入黑名单的节点
83 0 80 8 4000 80 510.00 0
答案 0 :(得分:0)
无论您运行FairScheduler还是CapacityScheduler,您仍然可以并行运行作业,但有一些原因可能会导致您的作业按顺序运行: