AWS Glue Crawler:想要在s3中为文件夹分隔表

时间:2018-04-19 11:40:35

标签: amazon-web-services amazon-s3 aws-glue

我的s3文件结构是:

├── bucket
│   ├── customer_1
│   │   ├── year=2016
│   │   ├── year=2017
│   │   │   ├── month=11
│   │   |   │   ├── sometype-2017-11-01.parquet
│   |   |   |   ├── sometype-2017-11-02.parquet
│   |   |   |   ├── ...
│   │   │   ├── month=12
│   │   |   │   ├── sometype-2017-12-01.parquet
│   |   |   |   ├── sometype-2017-12-02.parquet
│   |   |   |   ├── ...
│   │   ├── year=2018
│   │   │   ├── month=01
│   │   |   │   ├── sometype-2018-01-01.parquet
│   |   |   |   ├── sometype-2018-01-02.parquet
│   |   |   |   ├── ...
│   ├── customer_2
│   │   ├── year=2017
│   │   │   ├── month=11
│   │   |   │   ├── moretype-2017-11-01.parquet
│   |   |   |   ├── moretype-2017-11-02.parquet
│   |   |   |   ├── ...
│   │   ├── year=...

我想使用AWS Glue抓取工具为customer_1和customer_2创建单独的表。如果我提到路径s3://bucket/customer_1s3://bucket/customer_2,它就可以正常工作。

我尝试了s3://bucket/customer_*s3://bucket/*,两者都无效,无法在胶水目录中创建表格

1 个答案:

答案 0 :(得分:1)

Glue的自然趋势是将类似的模式(当指向父文件夹时)添加到同一个表中,超过70%的匹配(假设,在您的情况下,Cust1和Cust2具有相同的模式)。将它们保存在单个文件夹中可能会根据文件夹名称创建相应的分区。