如何按日期在S3中打开多个实木复合地板文件

时间:2018-12-07 14:53:55

标签: pyspark

假设我在S3中有一个包含这些文件夹的存储库

s3://tmp/ 

PRE ds=2018-12-05/
PRE ds=2018-12-06/
PRE ds=2018-12-07/

这些文件夹中有几个镶木地板文件。

问题是:如何打开最后两个日期并将其动态添加到一个文件中?

tmp1 = spark.read.parquet('s3://tmp/ds=2018-12-06/')
tmp2 = spark.read.parquet('s3://tmp/ds=2018-12-07/')

tmp3=tmp1.unionAll(tmp2)

0 个答案:

没有答案