应用错误收集

Spark如何按顺序加载有序实木复合地板分区文件？

时间：2019-05-30 18:11:00

标签： apache-spark apache-spark-sql pyspark-sql

对所有条目进行排序并使用write()函数到S3之后，我想以完全相同的顺序和相同的分区重新加载数据。

我尝试使用read()和load()函数，但是这些都不起作用。我们是否可以用相同的顺序和分区来加载分区的镶木地板文件？

1 个答案:

答案 0 :(得分：0)

如果read（）和load（）没有帮助，我建议您从S3读取文件名并按照您需要的方式对其进行排序，然后按顺序依次读取这些文件。您始终可以构建DataFrame（如果您愿意的话，可以继续从刚刚读取的这些分区中向其中添加数据）