将多个分区读入一个数据帧/ rdd

时间:2018-07-12 15:00:39

标签: sql apache-spark

val rdd = spark.read.format("csv")
                    .option("delimiter","\t").option("header", "false") 
                    .csv("/mnt/adls/myDb/myTb/s_year_month=201806/s_day=10")

现在,此操作将读取特定分区的数据(20180610)。有什么方法可以将myTb文件夹中的所有分区读入一个rdd?因此,以后可以像这样

进行访问
SELECT * FROM  myDb.myTb WHERE (CONCAT(s_year_month, s_day) = '20180610')

如果我只读取通配符,它​​将失去分区方面的作用。

0 个答案:

没有答案