Question

我正在尝试在Spark中导入csv文件。我在Input文件夹下有几个文件，其中包含按日期（CSV_2018-02-20至CSV_2018-02-26）的子文件夹，并且每个子文件夹均包含文件（FILE_2018-02-2xT[yy]，其中yy每小时。问题：我只希望从21/02-25/02读取08h00-22h00的文件（均包括在内）。我该怎么办？

val df = spark.read
...
...
.csv(s"s3a://${sys.env("S3n")}/T/Input/CSV_2018-02-2[1-5]/FILE_2018-02-2[1-5]T[0][8-9]*",s"s3a://${sys.env("S3n")}/T/Input/CSV_2018-02-2[1-5]/FILE_2018-02-2[1-5]T[1][0-9]*",s"s3a://${sys.env("S3n")}/T/Input/CSV_2018-02-2[1-5]/FILE_2018-02-2[1-5]T[2][0-2]*")

我尝试了上述内容以及3条单独的读取语句，但给出了错误。

是否有更好的通配符语法可以结合使用？问题主要出在以下时间：08-22，我没有找到通配符同时使用两位数的示例：即：[08-22]也不起作用。

在Spark中读取多个csv文件

0 个答案: