是否可以使用map reduce将1 .tar.gz文件转换为1个序列文件? 到目前为止,遇到了所有正在执行此操作的解决方案,而没有拆分tar.gz或本地文件系统。
答案 0 :(得分:0)
想象一下你的gzip压缩文件存储在HDFS中,其大小为1 GB。 HDFS块大小为 64 MB,文件将存储为16个块。但是,为每个块创建拆分不会 因为无法在gzip流中的任意点开始阅读,所以工作正常 因此,地图任务无法独立于其他任务读取其分割。该 gzip格式使用DEFLATE存储压缩数据,DEFLATE存储数据 作为一系列压缩块。问题是每个块的开始不是 以任何方式区分,允许读者定位在任意点 流进入下一个块的开头,从而使自身同步 与流。因此,gzip不支持拆分。