我正在尝试使用以下hadoop流式传输作业来压缩hdfs中的数据
hadoop jar $ HADOOP_HOME / share / hadoop / tools / lib / hadoop-streaming-2.6.0-cdh5.5.0.jar -Dmapred.reduce.tasks = 0 -Dmapred.output.compress = true -Dmapred.compress。 map.output = true -Dmapred.output.compression.codec = org.apache.hadoop.io.compress.GzipCodec -Dmapreduce.input.fileinputformat.input.dir.recursive = true -input / sample / data -output / output - mapper / bin / cat
我有以下目录结构
ADDRESS
当我将输入作为/ sample / data /将所有文件压缩为单个文件时,当我解压缩时,不保留目录结构。
为了保留目录结构,我必须为每个文件夹运行作业,即/ sample / data / monday,/ sample / data / tuesday等等。
我是否有一种简单的方法可以使用“样本/数据”作为输入来压缩单个作业中的数据,这样当我解压缩目录结构时就会保留目录结构。(我可以转到任何其他压缩技术,如果他们支持保留结构。)
由于