标签: hadoop cloud distributed-computing
我有兴趣修改作业的输入数据拆分分配给特定节点的方式。
我浏览了hadoop的JobInprogress代码,但无法知道实际分配是如何发生的。
作业的输入拆分如何在群集节点之间分配?
我需要通过哪些Hadoop文件来了解分配?
答案 0 :(得分:1)
MultiFileInputFormat等每种输入格式都实现了计算InputSplits的InputFormat#getSplits()方法。