如何只读取目录中的前5个文件夹:Spark

时间:2016-07-06 15:43:35

标签: json scala file apache-spark pyspark

我有一个目录下的文件夹列表(例如:2016/06 / 03/00 / File.json.gz"))。目前我正在阅读所有文件:

val df = sqlContext.jsonFile("s3://testData/2016/06/0*/*/*") 

但是我想在06内只读出前5个文件夹(所有文件夹都像01 ... 30天,每个文件夹都有小时文件夹-00..23,其中包含josnfiles)

我可以这样做:

::-moz-selection { /* Code for Firefox */
  color: red;
  background: yellow;
}

::selection {
  color: red; 
  background: yellow;
}

我想阅读01,02,03,04,05个文件夹(5天),剩下的就是

有没有更好的方法呢?

1 个答案:

答案 0 :(得分:3)

试试这个:

val df = sqlContext.jsonFile("s3://testData/2016/06/0[1-5]/*/*")