我有500多个以拼花形式存储在AWS S3中的表的列表。结构如下:
aws-bucket/
└── parquet/
└── table1/t1.parquet
└── table2/t2.parquet
└── table3/t3.parquet
└── table4/t4.parquet
└── table5/t5.parquet
└── table6/t6.parquet
└── table7/t7.parquet
└── table8/t8.parquet
当我在“ s3:// aws-bucket / parquet /”上运行Glue Crawler并尝试创建Athena DB时,它只会创建一个名为parquet的表,而不是创建所有500多个表。我尚未尝试对搜寻器参数进行任何自定义。
请帮助。
答案 0 :(得分:0)
S3数据的分组行为(可选)
为每个S3路径创建一个架构
默认情况下,搜寻器为存储在S3中的数据定义表时,会同时考虑数据兼容性和架构相似性。选中此复选框,可将所提供的包含路径下的所有S3对象中的兼容架构分组为一个表定义。仍将考虑其他标准来确定适当的分组。
在粘合搜寻器控制台中选中此选项。它将创建500多个表