如何按照到达火花数据帧的顺序加载多个文件

时间:2018-02-07 19:37:18

标签: apache-spark spark-dataframe scala-2.10

我必须从S3加载数百万个XML文件并在spark中处理它。 但是应该按特定顺序加载所有文件。 所以例如我在文件夹的名称中附加了时间序列,现在我需要按时间序列前缀对所有文件进行排序,并以相同的排序顺序将其加载到spark中。

加载到spark数据框时,文件的顺序不应该改变。

我们能在火花中做到这一点吗?

0 个答案:

没有答案