在hdfs中压缩后保留目录结构

时间:2016-01-12 02:40:05

标签: hadoop mapreduce hdfs gzip hadoop-streaming

我正在尝试使用以下hadoop流式传输作业来压缩hdfs中的数据

  

hadoop jar $ HADOOP_HOME / share / hadoop / tools / lib / hadoop-streaming-2.6.0-cdh5.5.0.jar -Dmapred.reduce.tasks = 0 -Dmapred.output.compress = true -Dmapred.compress。 map.output = true -Dmapred.output.compression.codec = org.apache.hadoop.io.compress.GzipCodec -Dmapreduce.input.fileinputformat.input.dir.recursive = true -input / sample / data -output / output - mapper / bin / cat

我有以下目录结构

ADDRESS

当我将输入作为/ sample / data /将所有文件压缩为单个文件时,当我解压缩时,不保留目录结构。

为了保留目录结构,我必须为每个文件夹运行作业,即/ sample / data / monday,/ sample / data / tuesday等等。

我是否有一种简单的方法可以使用“样本/数据”作为输入来压缩单个作业中的数据,这样当我解压缩目录结构时就会保留目录结构。(我可以转到任何其他压缩技术,如果他们支持保留结构。)

由于

0 个答案:

没有答案