使用spark(scala / java)数据帧读取数据范围内的数据拼写的最佳方法是什么?
根据日期列(例如年,月和日)对数据进行分区,可以使用通配符,什么是最好的方法?
val dataframe = sqlContext
.read
.parquet("file:///your/path/data=jDD/year=2015/month=10/day={5,6}/*")
通配符还可用于指定月份,天数范围:
val dataframe = sqlContext
.read
.parquet("file:///your/path/data=jDD/year=2015/month=[1-5]/day=[5-10]/*")