应用错误收集

从PySpark中压缩的XML文件中读取数据

时间：2019-02-15 14:15:21

标签： apache-spark pyspark databricks

我有一个场景，我必须读取多个在PySpark中压缩在一起的XML文件。

Zip文件大小：30 GB

解压缩后的大小：600 GB

单个文件的最大大小：40 GB

提取时间：4小时

我能够使用databricks API以预定义的架构读取提取的XML数据。但是提取数据本身会花费大量时间。有没有一种方法可以直接从zip文件读取数据，而不是提取数据？

提前谢谢！！！！

0 个答案:

没有答案