标签: java hadoop compression hdfs
对于不可拆分的文件,例如GZIP,只有一个地图作业,因为GZIP文件不可拆分。是否有任何选项或优化将这些文件的所有块存储在一个数据节点中,这样我们至少可以节省网络带宽?
GZIP
答案 0 :(得分:2)
将gzip文件的HDFS块大小增加到大于文件大小应该可以解决问题。有关为每个文件设置HDFS块大小的详细信息,请参阅此answer