我正在尝试在Spark中导入csv文件。我在Input文件夹下有几个文件,其中包含按日期(CSV_2018-02-20
至CSV_2018-02-26
)的子文件夹,并且每个子文件夹均包含文件(FILE_2018-02-2xT[yy]
,其中yy
每小时。
问题:我只希望从21/02-25/02读取08h00-22h00的文件(均包括在内)。我该怎么办?
val df = spark.read
...
...
.csv(s"s3a://${sys.env("S3n")}/T/Input/CSV_2018-02-2[1-5]/FILE_2018-02-2[1-5]T[0][8-9]*",s"s3a://${sys.env("S3n")}/T/Input/CSV_2018-02-2[1-5]/FILE_2018-02-2[1-5]T[1][0-9]*",s"s3a://${sys.env("S3n")}/T/Input/CSV_2018-02-2[1-5]/FILE_2018-02-2[1-5]T[2][0-2]*")
我尝试了上述内容以及3条单独的读取语句,但给出了错误。
是否有更好的通配符语法可以结合使用?
问题主要出在以下时间:08-22,我没有找到通配符同时使用两位数的示例:即:[08-22]
也不起作用。