Question

我们正在使用AWS胶水转换存储在S3 datalake中的JSON文件。

以下是我遵循的步骤，

创建了一个爬虫程序，用于从我们的datalake在Glue上生成表格具有JSON数据的存储桶。
新创建的表具有以下分区，

姓名，年，月，日，小时
创建了一个胶水作业，将其转换为Parquet并存储在另一个桶中

通过这些过程，作业成功运行，但新存储桶中的数据未分区。它只是在一个目录下。

我想要实现的是转换的镶木地板文件应该与源表/数据湖桶中的分区相同。

另外，我想增加镶木地板文件的文件大小（减少文件数）。

有人可以帮我吗？

Answer 1

请尝试以下方法编写动态框架。

glueContext.write_dynamic_frame.from_options(
frame=<output_dataframe>,
connection_type="s3",
connection_options={"path": "s3://<output_bucket_path>",
                    "partitionKeys": ["Name", "Year", "Month" , "day", "hour"]},
format="parquet")

AWS Glue将文件从JSON转换为Parquet，其分区与源表相同

1 个答案: