Spark如何按顺序加载有序实木复合地板分区文件?

时间:2019-05-30 18:11:00

标签: apache-spark apache-spark-sql pyspark-sql

对所有条目进行排序并使用write()函数到S3之后,我想以完全相同的顺序和相同的分区重新加载数据。

我尝试使用read()load()函数,但是这些都不起作用。我们是否可以用相同的顺序和分区来加载分区的镶木地板文件?

1 个答案:

答案 0 :(得分:0)

如果read()和load()没有帮助,我建议您从S3读取文件名并按照您需要的方式对其进行排序,然后按顺序依次读取这些文件。您始终可以构建DataFrame(如果您愿意的话,可以继续从刚刚读取的这些分区中向其中添加数据)