Spark wholeTextFiles()以相反的顺序读取文件

时间:2016-04-10 17:20:23

标签: apache-spark pyspark

尝试使用wholeTextFiles()从本地文件系统URL读取TSV文件:

示例网址:file:/// tmp / some-folder

文件以反向字典顺序返回。尝试使用s3n URL运行相同的代码,并以正确的顺序返回文件。

是否可以采取任何措施使其按正确顺序返回文件?

如果没有,那么实现相同功能的更好方法是什么?

  1. 在wholeTextFiles()之后调用sortByKey()。
  2. 编写自定义函数以读取目录中的文件列表,对该列表进行排序并从那里继续加载文件并进一步处理它们。
  3. Spark版本和发行版:spark-1.6.0-bin-hadoop2.4

0 个答案:

没有答案