我每15分钟运行一次AWS Glue ETL作业,每次在S3中生成1个实木复合地板文件。
我需要创建另一个作业以在每个小时结束时运行,以使用AWS Glue ETL pyspark代码将S3中的所有4个实木复合地板文件合并为1个单个实木复合地板文件。
有人尝试过吗?建议和最佳实践?
提前谢谢!
答案 0 :(得分:0)
..一个简单的选择是将其转换为spark数据框
1)将实木复合地板读取到动态框架中(或者更好的是,将其读取为spark数据框架) 2)sourcedf.toDF()。repartition(1)