应用错误收集

我是pyspark或python的新手，我试图重新压缩一堆按月，日和小时分区的数据。

目标是复制一个月的数据，然后将其从snappy重新压缩为gzip，然后将其放在新目录中，但是如果有意义的话，我想保留相同的目录，包括月，日和小时。 / home / 2016/01/01/00 / - ＆gt; / HOME2 / 2016/01/01/00 /

我有一些东西放在一起，但现在它只是将所有文件转储到最终目的地的2016目录中。我这样做是为了解决目录创建部分的oozie工作吗？

#! /usr/bin/python

import sys
from pyspark import SparkContext, SparkConf
sc =SparkContext()


recompress = sc.textFile("hdfs://home/data/2016/*/*/*/*.snappy")

recompress.saveAsTextFile("hdfs://home2/data/2016/",compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec")

复制文件和目录并将其重新压缩到新位置，但保留相同的目录

0 个答案: