没有扩展名的PySpark S3 Gzip文件

时间:2016-05-27 23:51:37

标签: apache-spark amazon-s3 pyspark

我正试图通过PySpark从S3读取一堆gzip压缩文件。通常textFile或spark-csv会自动解压缩gzips,但我正在使用的文件没有.gz扩展名,因此最终会被压缩后读入。有数百万个文件,它们由另一个团队拥有,并且每天都会更新多次。

有没有办法强制告诉textFile或spark-csv API压缩风格?或者还有其他方法可以复制和重命名文件吗?

0 个答案:

没有答案