在Spark 1.6中读取多个文件,我使用了:
JavaSparkContext ctx;
ctx.textFile(filePaths);
filePaths
是文件的目录。例如,我们有:
/home/user/folderA/0.log,/home/user/folderB/0.log
。每个路径用逗号字符分隔。
但是,当我升级到Spark 2.0时。方法
SparkSession sparkSession;
sparkSession.read().textFile(filePaths);
不起作用。代码抛出异常:Path does not exist:
问题:是否有任何解决方案可以从Spark 2.0中的多个路径读取多个文件,就像Spark 1.6一样?
编辑:我尝试使用以下方法调用Spark 1.6之类的方法:
sparkSession.sparkContext().textFile(filePaths, 1).toJavaRDD();
问题将解决。但是,还有另一种解决方案吗?