应用错误收集

将多个分区读入一个数据帧/ rdd

时间：2018-07-12 15:00:39

标签： sql apache-spark

val rdd = spark.read.format("csv")
                    .option("delimiter","\t").option("header", "false") 
                    .csv("/mnt/adls/myDb/myTb/s_year_month=201806/s_day=10")

现在，此操作将读取特定分区的数据（20180610）。有什么方法可以将myTb文件夹中的所有分区读入一个rdd？因此，以后可以像这样

进行访问

SELECT * FROM  myDb.myTb WHERE (CONCAT(s_year_month, s_day) = '20180610')

如果我只读取通配符，它将失去分区方面的作用。

0 个答案:

没有答案