从PySpark中压缩的XML文件中读取数据

时间:2019-02-15 14:15:21

标签: apache-spark pyspark databricks

我有一个场景,我必须读取多个在PySpark中压缩在一起的XML文件。

Zip文件大小:30 GB

解压缩后的大小:600 GB

单个文件的最大大小:40 GB

提取时间:4小时

我能够使用databricks API以预定义的架构读取提取的XML数据。但是提取数据本身会花费大量时间。有没有一种方法可以直接从zip文件读取数据,而不是提取数据?

提前谢谢!!!!

0 个答案:

没有答案