使用AWS Glue ETL python spark(pyspark)在AWS S3中将多个实木复合地板文件合并为单个实木复合地板文件

时间:2020-03-24 07:28:47

标签: amazon-s3 pyspark parquet aws-glue

我每15分钟运行一次AWS Glue ETL作业,每次在S3中生成1个实木复合地板文件。

我需要创建另一个作业以在每个小时结束时运行,以使用AWS Glue ETL pyspark代码将S3中的所有4个实木复合地板文件合并为1个单个实木复合地板文件。

有人尝试过吗?建议和最佳实践?

提前谢谢!

1 个答案:

答案 0 :(得分:0)

..一个简单的选择是将其转换为spark数据框

1)将实木复合地板读取到动态框架中(或者更好的是,将其读取为spark数据框架) 2)sourcedf.toDF()。repartition(1)