我很难抽出数字,为什么我在使用hive查询运行查询时以及使用hcatalog在同一个hive表上运行MR时获得不同数量的映射器。
Difference is significant for same input volume
With Hive Query : 913 mapper
With MR+hcatalog : 3106 mapper
我在桌子上使用RC文件作为存储格式,我正在访问。 而且我也没有在两个地方(hive或MR)的输入分割大小中应用任何调整
任何点击,为什么会发生这种情况,我在运行MR时尝试设置mapred.max.split.size = 536870912,它也让我有效减少了映射器的数量。