我使用pyspark库加载巨大的csv文件。将csv文件包装到gz存档中。问题在于文件名是大写的(包括gz扩展名)。然后文件名看起来像这样:
MY_FILE_TO_PROCESS.GZ
对于文件加载,我使用以下命令
self.spark_session = SparkSession.builder.appName("My-Spark-Session").getOrCreate()
self.spark_session.read.load("/path/to/MY_FILE_TO_PROCESS.GZ", format='csv', sep=","')
在这种情况下,它不起作用。该文件未正确解压缩。当我这样重命名文件时(我使用小写扩展名),一切正常:
MY_FILE_TO_PROCESS.gz
有什么办法可以说是gz存档文件吗?我无法重命名文件。
感谢建议