AWS Glue将文件从JSON转换为Parquet,其分区与源表相同

时间:2018-02-12 04:21:22

标签: amazon-web-services bigdata aws-glue

我们正在使用AWS胶水转换存储在S3 datalake中的JSON文件。

以下是我遵循的步骤,

  1. 创建了一个爬虫程序,用于从我们的datalake在Glue上生成表格 具有JSON数据的存储桶。

  2. 新创建的表具有以下分区,

    姓名,年,月,日,小时

  3. 创建了一个胶水作业,将其转换为Parquet并存储在另一个桶中

  4. 通过这些过程,作业成功运行,但新存储桶中的数据未分区。它只是在一个目录下。

    我想要实现的是转换的镶木地板文件应该与源表/数据湖桶中的分区相同。

    另外,我想增加镶木地板文件的文件大小(减少文件数)。

    有人可以帮我吗?

1 个答案:

答案 0 :(得分:0)

请尝试以下方法编写动态框架。

glueContext.write_dynamic_frame.from_options(
frame=<output_dataframe>,
connection_type="s3",
connection_options={"path": "s3://<output_bucket_path>",
                    "partitionKeys": ["Name", "Year", "Month" , "day", "hour"]},
format="parquet")