Spark-在具有大写扩展名的gz存档中加载csv

时间:2018-11-13 07:34:21

标签: python pyspark gzip

我使用pyspark库加载巨大的csv文件。将csv文件包装到gz存档中。问题在于文件名是大写的(包括gz扩展名)。然后文件名看起来像这样:

MY_FILE_TO_PROCESS.GZ

对于文件加载,我使用以下命令

self.spark_session = SparkSession.builder.appName("My-Spark-Session").getOrCreate()
self.spark_session.read.load("/path/to/MY_FILE_TO_PROCESS.GZ", format='csv', sep=","')

在这种情况下,它不起作用。该文件未正确解压缩。当我这样重命名文件时(我使用小写扩展名),一切正常:

MY_FILE_TO_PROCESS.gz

有什么办法可以说是gz存档文件吗?我无法重命名文件。

感谢建议

0 个答案:

没有答案