标签: hadoop compression hdfs yarn bzip2
我在Hadoop中有1.2GB文件,在BZip2编解码器中压缩。我们的Hadoop YARN群集有 10个节点。 HDFS 块大小为128 MB ,因此我认为该文件已拆分为10个块。 BZip2应该是可拆分的编解码器,所以我想当我开始处理输入文件时,Hadoop执行10个map任务(每个块一个)。但是当我查看作业日志时,我只能看到一个Map任务。
我没有找到任何限制YARN中映射器数量的设置(与Hadoop 1相比)。
我错过了什么或我做错了什么?
谢谢
答案 0 :(得分:0)
我从未使用过BZip2,但我认为此问题可能与您的fileInputFormat有关。您可能还需要配置fileInputFormat,请查看此answer。
fileInputFormat