我的s3文件结构是:
├── bucket
│ ├── customer_1
│ │ ├── year=2016
│ │ ├── year=2017
│ │ │ ├── month=11
│ │ | │ ├── sometype-2017-11-01.parquet
│ | | | ├── sometype-2017-11-02.parquet
│ | | | ├── ...
│ │ │ ├── month=12
│ │ | │ ├── sometype-2017-12-01.parquet
│ | | | ├── sometype-2017-12-02.parquet
│ | | | ├── ...
│ │ ├── year=2018
│ │ │ ├── month=01
│ │ | │ ├── sometype-2018-01-01.parquet
│ | | | ├── sometype-2018-01-02.parquet
│ | | | ├── ...
│ ├── customer_2
│ │ ├── year=2017
│ │ │ ├── month=11
│ │ | │ ├── moretype-2017-11-01.parquet
│ | | | ├── moretype-2017-11-02.parquet
│ | | | ├── ...
│ │ ├── year=...
我想使用AWS Glue抓取工具为customer_1和customer_2创建单独的表。如果我提到路径s3://bucket/customer_1
和s3://bucket/customer_2
,它就可以正常工作。
我尝试了s3://bucket/customer_*
和s3://bucket/*
,两者都无效,无法在胶水目录中创建表格
答案 0 :(得分:1)
Glue的自然趋势是将类似的模式(当指向父文件夹时)添加到同一个表中,超过70%的匹配(假设,在您的情况下,Cust1和Cust2具有相同的模式)。将它们保存在单个文件夹中可能会根据文件夹名称创建相应的分区。