Question

我有500多个以拼花形式存储在AWS S3中的表的列表。结构如下：

aws-bucket/
└── parquet/
    └── table1/t1.parquet
    └── table2/t2.parquet
    └── table3/t3.parquet
    └── table4/t4.parquet
    └── table5/t5.parquet
    └── table6/t6.parquet
    └── table7/t7.parquet
    └── table8/t8.parquet

当我在“ s3：// aws-bucket / parquet /”上运行Glue Crawler并尝试创建Athena DB时，它只会创建一个名为parquet的表，而不是创建所有500多个表。我尚未尝试对搜寻器参数进行任何自定义。

请帮助。

Answer 1

检查https://docs.aws.amazon.com/glue/latest/dg/crawler-configuration.html?icmpid=docs_glue_console#crawler-grouping-policy

S3数据的分组行为（可选）

为每个S3路径创建一个架构

默认情况下，搜寻器为存储在S3中的数据定义表时，会同时考虑数据兼容性和架构相似性。选中此复选框，可将所提供的包含路径下的所有S3对象中的兼容架构分组为一个表定义。仍将考虑其他标准来确定适当的分组。

在粘合搜寻器控制台中选中此选项。它将创建500多个表

AWS Glue Catalog无法检测到镶木地板文件，而是将根路径创建为单个表

1 个答案: