我们正在使用AWS胶水转换存储在S3 datalake中的JSON文件。
以下是我遵循的步骤,
创建了一个爬虫程序,用于从我们的datalake在Glue上生成表格 具有JSON数据的存储桶。
新创建的表具有以下分区,
姓名,年,月,日,小时
创建了一个胶水作业,将其转换为Parquet并存储在另一个桶中
通过这些过程,作业成功运行,但新存储桶中的数据未分区。它只是在一个目录下。
我想要实现的是转换的镶木地板文件应该与源表/数据湖桶中的分区相同。
另外,我想增加镶木地板文件的文件大小(减少文件数)。
有人可以帮我吗?
答案 0 :(得分:0)
请尝试以下方法编写动态框架。
glueContext.write_dynamic_frame.from_options(
frame=<output_dataframe>,
connection_type="s3",
connection_options={"path": "s3://<output_bucket_path>",
"partitionKeys": ["Name", "Year", "Month" , "day", "hour"]},
format="parquet")