使用spark(scala / java)数据帧读取数据范围内的数据拼花的最佳方法是什么?

时间:2018-11-08 11:58:43

标签: java scala apache-spark

使用spark(scala / java)数据帧读取数据范围内的数据拼写的最佳方法是什么?

根据日期列(例如年,月和日)对数据进行分区,可以使用通配符,什么是最好的方法?

val dataframe = sqlContext
  .read
  .parquet("file:///your/path/data=jDD/year=2015/month=10/day={5,6}/*")

通配符还可用于指定月份,天数范围:

val dataframe = sqlContext
  .read
  .parquet("file:///your/path/data=jDD/year=2015/month=[1-5]/day=[5-10]/*")

0 个答案:

没有答案