应用错误收集

没有扩展名的PySpark S3 Gzip文件

时间：2016-05-27 23:51:37

标签： apache-spark amazon-s3 pyspark

我正试图通过PySpark从S3读取一堆gzip压缩文件。通常textFile或spark-csv会自动解压缩gzips，但我正在使用的文件没有.gz扩展名，因此最终会被压缩后读入。有数百万个文件，它们由另一个团队拥有，并且每天都会更新多次。

有没有办法强制告诉textFile或spark-csv API压缩风格？或者还有其他方法可以复制和重命名文件吗？

0 个答案:

没有答案