pyspark读取压缩文件而不解压缩

时间:2019-04-18 18:45:16

标签: pyspark pyspark-sql

我在Java / Scala中看到类似的问题,但是如何在不进行实际解压缩的情况下以pyspark格式导入以zip / gzip / tar格式压缩的文件?

我想听听有关以下方面的建议:1)如何在一个压缩文件中获取文件列表,2)如何使用pyspark将每个文件读入spark数据帧。我寻找的输出是filename:dataframe对象的列表,其中dataframe是每个文件的内容。

谢谢!

0 个答案:

没有答案