应用错误收集

如何按照到达火花数据帧的顺序加载多个文件

时间：2018-02-07 19:37:18

标签： apache-spark spark-dataframe scala-2.10

我必须从S3加载数百万个XML文件并在spark中处理它。但是应该按特定顺序加载所有文件。所以例如我在文件夹的名称中附加了时间序列，现在我需要按时间序列前缀对所有文件进行排序，并以相同的排序顺序将其加载到spark中。

加载到spark数据框时，文件的顺序不应该改变。

我们能在火花中做到这一点吗？

0 个答案:

没有答案