应用错误收集

pyspark读取压缩文件而不解压缩

时间：2019-04-18 18:45:16

标签： pyspark pyspark-sql

我在Java / Scala中看到类似的问题，但是如何在不进行实际解压缩的情况下以pyspark格式导入以zip / gzip / tar格式压缩的文件？

我想听听有关以下方面的建议：1）如何在一个压缩文件中获取文件列表，2）如何使用pyspark将每个文件读入spark数据帧。我寻找的输出是filename：dataframe对象的列表，其中dataframe是每个文件的内容。

谢谢！

0 个答案:

没有答案