我是pyspark或python的新手,我试图重新压缩一堆按月,日和小时分区的数据。
目标是复制一个月的数据,然后将其从snappy重新压缩为gzip,然后将其放在新目录中,但是如果有意义的话,我想保留相同的目录,包括月,日和小时。 / home / 2016/01/01/00 / - > / HOME2 / 2016/01/01/00 /
我有一些东西放在一起,但现在它只是将所有文件转储到最终目的地的2016目录中。我这样做是为了解决目录创建部分的oozie工作吗?
#! /usr/bin/python
import sys
from pyspark import SparkContext, SparkConf
sc =SparkContext()
recompress = sc.textFile("hdfs://home/data/2016/*/*/*/*.snappy")
recompress.saveAsTextFile("hdfs://home2/data/2016/",compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec")