应用错误收集

Spark wholeTextFiles（）以相反的顺序读取文件

时间：2016-04-10 17:20:23

标签： apache-spark pyspark

尝试使用wholeTextFiles（）从本地文件系统URL读取TSV文件：

示例网址：file：/// tmp / some-folder

文件以反向字典顺序返回。尝试使用s3n URL运行相同的代码，并以正确的顺序返回文件。

是否可以采取任何措施使其按正确顺序返回文件？

如果没有，那么实现相同功能的更好方法是什么？

在wholeTextFiles（）之后调用sortByKey（）。
编写自定义函数以读取目录中的文件列表，对该列表进行排序并从那里继续加载文件并进一步处理它们。

Spark版本和发行版：spark-1.6.0-bin-hadoop2.4

0 个答案:

没有答案