Question

我正在尝试使用以下hadoop流式传输作业来压缩hdfs中的数据

hadoop jar $ HADOOP_HOME / share / hadoop / tools / lib / hadoop-streaming-2.6.0-cdh5.5.0.jar -Dmapred.reduce.tasks = 0 -Dmapred.output.compress = true -Dmapred.compress。 map.output = true -Dmapred.output.compression.codec = org.apache.hadoop.io.compress.GzipCodec -Dmapreduce.input.fileinputformat.input.dir.recursive = true -input / sample / data -output / output - mapper / bin / cat

我有以下目录结构

ADDRESS

当我将输入作为/ sample / data /将所有文件压缩为单个文件时，当我解压缩时，不保留目录结构。

为了保留目录结构，我必须为每个文件夹运行作业，即/ sample / data / monday，/ sample / data / tuesday等等。

我是否有一种简单的方法可以使用“样本/数据”作为输入来压缩单个作业中的数据，这样当我解压缩目录结构时就会保留目录结构。（我可以转到任何其他压缩技术，如果他们支持保留结构。）

由于

在hdfs中压缩后保留目录结构

0 个答案: