复制文件和目录并将其重新压缩到新位置,但保留相同的目录

时间:2017-12-05 00:34:38

标签: pyspark bigdata oozie

我是pyspark或python的新手,我试图重新压缩一堆按月,日和小时分区的数据。

目标是复制一个月的数据,然后将其从snappy重新压缩为gzip,然后将其放在新目录中,但是如果有意义的话,我想保留相同的目录,包括月,日和小时。 / home / 2016/01/01/00 / - > / HOME2 / 2016/01/01/00 /

我有一些东西放在一起,但现在它只是将所有文件转储到最终目的地的2016目录中。我这样做是为了解决目录创建部分的oozie工作吗?

#! /usr/bin/python

import sys
from pyspark import SparkContext, SparkConf
sc =SparkContext()


recompress = sc.textFile("hdfs://home/data/2016/*/*/*/*.snappy")

recompress.saveAsTextFile("hdfs://home2/data/2016/",compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec")

0 个答案:

没有答案