从HDFS根文件夹读取数据并将其附加到Spark DF

时间:2018-07-03 21:49:14

标签: scala apache-spark apache-spark-sql

我正在从Spark Scala的HDFS文件夹中读取JSON文件

代码:

val path = "hdfs://year/month/date/*"
var df = spark.read.format("json").load(path)

因此它将读取日期文件夹中的所有部分JSON文件。

但是我想读取year文件夹中的所有JSON文件,并将其附加到DF。有任何建议。

1 个答案:

答案 0 :(得分:0)

val path = "hdfs://year/*/*/*"
var df = spark.read.format("json").load(path)

这行得通。

相关问题