应用错误收集

仅将s3分区文件之一添加到AWS Glue

时间：2019-12-16 19:26:31

标签： python database amazon-web-services amazon-s3 aws-glue

在通过s3存储桶运行搜寻器时，我遇到了一些小问题。我的文件夹中有从redshift转储的数据，这些数据被切成许多不同的文件。这些文件的命名约定如下：

dump_0000_part_00.gz，dump_0001_part_01.gz ....

但是，当我的搜寻器在此文件夹中获取元数据时，它会制作几百张表，并认为这些切片文件中的每个文件都是其自己的表。有没有办法告诉搜寻器将所有这些切片的文件分组到一个目录表中？

1 个答案:

答案 0 :(得分：0)

在配置抓取工具（或编辑现有抓取工具）时，请在Output部分下展开Grouping behavior for S3 data (optional)并选择Create a single schema for each S3 path