在Spark中按顺序读取文件

时间:2018-01-04 01:33:34

标签: java apache-spark hdfs

我的Spark Master需要按顺序读取文件。这是我试图避免的(伪代码):

if file-path starts with "hdfs://"
    Read via HDFS API
else
    Read via native FS API

我认为以下方法可以解决问题,让Spark处理区分本地/ HDFS:

JavaSparkContext sc = new JavaSparkContext(new SparkConf());
List<String> lines = sc.textFile(path).collect();

假设lines符合规定是否安全;即lines.get(0)是文件的第一行,lines.get(1)是第二行;等?

如果没有,有关如何避免明确检查FS类型的任何建议吗?

0 个答案:

没有答案