标签: apache-spark spark-dataframe scala-2.10
我必须从S3加载数百万个XML文件并在spark中处理它。 但是应该按特定顺序加载所有文件。 所以例如我在文件夹的名称中附加了时间序列,现在我需要按时间序列前缀对所有文件进行排序,并以相同的排序顺序将其加载到spark中。
加载到spark数据框时,文件的顺序不应该改变。
我们能在火花中做到这一点吗?