标签: apache-spark pyspark databricks
我有一个场景,我必须读取多个在PySpark中压缩在一起的XML文件。
Zip文件大小:30 GB
解压缩后的大小:600 GB
单个文件的最大大小:40 GB
提取时间:4小时
我能够使用databricks API以预定义的架构读取提取的XML数据。但是提取数据本身会花费大量时间。有没有一种方法可以直接从zip文件读取数据,而不是提取数据?
提前谢谢!!!!