应用错误收集

使用AWS Glue ETL python spark（pyspark）在AWS S3中将多个实木复合地板文件合并为单个实木复合地板文件

时间：2020-03-24 07:28:47

标签： amazon-s3 pyspark parquet aws-glue

我每15分钟运行一次AWS Glue ETL作业，每次在S3中生成1个实木复合地板文件。

我需要创建另一个作业以在每个小时结束时运行，以使用AWS Glue ETL pyspark代码将S3中的所有4个实木复合地板文件合并为1个单个实木复合地板文件。

有人尝试过吗？建议和最佳实践？

提前谢谢！

1 个答案:

答案 0 :(得分：0)

..一个简单的选择是将其转换为spark数据框

1）将实木复合地板读取到动态框架中（或者更好的是，将其读取为spark数据框架） 2）sourcedf.toDF（）。repartition（1）