我的Spark Master需要按顺序读取文件。这是我试图避免的(伪代码):
if file-path starts with "hdfs://"
Read via HDFS API
else
Read via native FS API
我认为以下方法可以解决问题,让Spark处理区分本地/ HDFS:
JavaSparkContext sc = new JavaSparkContext(new SparkConf());
List<String> lines = sc.textFile(path).collect();
假设lines
符合规定是否安全;即lines.get(0)
是文件的第一行,lines.get(1)
是第二行;等?
如果没有,有关如何避免明确检查FS类型的任何建议吗?