应用错误收集

使用spark（scala / java）数据帧读取数据范围内的数据拼花的最佳方法是什么？

时间：2018-11-08 11:58:43

标签： java scala apache-spark

使用spark（scala / java）数据帧读取数据范围内的数据拼写的最佳方法是什么？

根据日期列（例如年，月和日）对数据进行分区，可以使用通配符，什么是最好的方法？

val dataframe = sqlContext
  .read
  .parquet("file:///your/path/data=jDD/year=2015/month=10/day={5,6}/*")

通配符还可用于指定月份，天数范围：

val dataframe = sqlContext
  .read
  .parquet("file:///your/path/data=jDD/year=2015/month=[1-5]/day=[5-10]/*")

0 个答案:

没有答案