使用Spark 2.0中的SparkSession读取多个文件

时间:2016-08-30 09:18:43

标签: apache-spark

在Spark 1.6中读取多个文件,我使用了:

JavaSparkContext ctx;
ctx.textFile(filePaths);

filePaths是文件的目录。例如,我们有: /home/user/folderA/0.log,/home/user/folderB/0.log。每个路径用逗号字符分隔。

但是,当我升级到Spark 2.0时。方法

SparkSession sparkSession;
sparkSession.read().textFile(filePaths);

不起作用。代码抛出异常:Path does not exist:

问题:是否有任何解决方案可以从Spark 2.0中的多个路径读取多个文件,就像Spark 1.6一样?

编辑:我尝试使用以下方法调用Spark 1.6之类的方法:

sparkSession.sparkContext().textFile(filePaths, 1).toJavaRDD();

问题将解决。但是,还有另一种解决方案吗?

0 个答案:

没有答案