仅将s3分区文件之一添加到AWS Glue

时间:2019-12-16 19:26:31

标签: python database amazon-web-services amazon-s3 aws-glue

在通过s3存储桶运行搜寻器时,我遇到了一些小问题。我的文件夹中有从redshift转储的数据,这些数据被切成许多不同的文件。这些文件的命名约定如下:

dump_0000_part_00.gz,dump_0001_part_01.gz ....

但是,当我的搜寻器在此文件夹中获取元数据时,它会制作几百张表,并认为这些切片文件中的每个文件都是其自己的表。有没有办法告诉搜寻器将所有这些切片的文件分组到一个目录表中?

1 个答案:

答案 0 :(得分:0)

在配置抓取工具(或编辑现有抓取工具)时,请在Output部分下展开Grouping behavior for S3 data (optional)并选择Create a single schema for each S3 path