标签: pyspark pyspark-sql
我在Java / Scala中看到类似的问题,但是如何在不进行实际解压缩的情况下以pyspark格式导入以zip / gzip / tar格式压缩的文件?
我想听听有关以下方面的建议:1)如何在一个压缩文件中获取文件列表,2)如何使用pyspark将每个文件读入spark数据帧。我寻找的输出是filename:dataframe对象的列表,其中dataframe是每个文件的内容。
谢谢!