分割和块之间的区别是块是存储在HDFS上的物理数据,而分割是由InputFormat计算/生成的分块 - TextInputFormat,FileInputFormat等。
我在许多地方读过,如果我们想减少地图任务的数量,那么增加拆分大小而不是块大小是可取的。但是,任何人都可以告诉我为什么会这样吗?
另外,在不同情况下更改split-size与dfs块大小会产生什么后果? (假设最初拆分大小和块大小为64MB )
我在不同场景中的上述理解是否正确?如果是这样,任何人都可以告诉我 方案1 和 方案3 之间的差异/结果。