在不使用RDD的情况下读入pyspark中的分区实木复合地板文件

时间:2020-05-23 14:01:29

标签: pyspark

数据根据S3上的日期存储在不同的文件夹中,并且每个文件夹中都有分区的镶木地板文件,例如

part-00001-xxxxx-xxxxx-xxxxx-xxxxx.snappy.parquet
part-00002-xxxxx-xxxxx-xxxxx-xxxxx.snappy.parquet

....

part-00030-xxxxx-xxxxx-xxxxx-xxxxx.snappy.parquet

如何将这些数据读取到pyspark数据框中?

0 个答案:

没有答案