标签: apache-spark amazon-s3 pyspark
我正试图通过PySpark从S3读取一堆gzip压缩文件。通常textFile或spark-csv会自动解压缩gzips,但我正在使用的文件没有.gz扩展名,因此最终会被压缩后读入。有数百万个文件,它们由另一个团队拥有,并且每天都会更新多次。
有没有办法强制告诉textFile或spark-csv API压缩风格?或者还有其他方法可以复制和重命名文件吗?