在通过s3存储桶运行搜寻器时,我遇到了一些小问题。我的文件夹中有从redshift转储的数据,这些数据被切成许多不同的文件。这些文件的命名约定如下:
dump_0000_part_00.gz,dump_0001_part_01.gz ....
但是,当我的搜寻器在此文件夹中获取元数据时,它会制作几百张表,并认为这些切片文件中的每个文件都是其自己的表。有没有办法告诉搜寻器将所有这些切片的文件分组到一个目录表中?
答案 0 :(得分:0)
在配置抓取工具(或编辑现有抓取工具)时,请在Output
部分下展开Grouping behavior for S3 data (optional)
并选择Create a single schema for each S3 path