应用错误收集

在不使用RDD的情况下读入pyspark中的分区实木复合地板文件

时间：2020-05-23 14:01:29

标签： pyspark

数据根据S3上的日期存储在不同的文件夹中，并且每个文件夹中都有分区的镶木地板文件，例如

part-00001-xxxxx-xxxxx-xxxxx-xxxxx.snappy.parquet
part-00002-xxxxx-xxxxx-xxxxx-xxxxx.snappy.parquet

....

part-00030-xxxxx-xxxxx-xxxxx-xxxxx.snappy.parquet

如何将这些数据读取到pyspark数据框中？

0 个答案:

没有答案