Question

我的s3文件结构是：

├── bucket
│   ├── customer_1
│   │   ├── year=2016
│   │   ├── year=2017
│   │   │   ├── month=11
│   │   |   │   ├── sometype-2017-11-01.parquet
│   |   |   |   ├── sometype-2017-11-02.parquet
│   |   |   |   ├── ...
│   │   │   ├── month=12
│   │   |   │   ├── sometype-2017-12-01.parquet
│   |   |   |   ├── sometype-2017-12-02.parquet
│   |   |   |   ├── ...
│   │   ├── year=2018
│   │   │   ├── month=01
│   │   |   │   ├── sometype-2018-01-01.parquet
│   |   |   |   ├── sometype-2018-01-02.parquet
│   |   |   |   ├── ...
│   ├── customer_2
│   │   ├── year=2017
│   │   │   ├── month=11
│   │   |   │   ├── moretype-2017-11-01.parquet
│   |   |   |   ├── moretype-2017-11-02.parquet
│   |   |   |   ├── ...
│   │   ├── year=...

我想使用AWS Glue抓取工具为customer_1和customer_2创建单独的表。如果我提到路径s3://bucket/customer_1和s3://bucket/customer_2，它就可以正常工作。

我尝试了s3://bucket/customer_*和s3://bucket/*，两者都无效，无法在胶水目录中创建表格

Answer 1

Glue的自然趋势是将类似的模式（当指向父文件夹时）添加到同一个表中，超过70％的匹配（假设，在您的情况下，Cust1和Cust2具有相同的模式）。将它们保存在单个文件夹中可能会根据文件夹名称创建相应的分区。

AWS Glue Crawler：想要在s3中为文件夹分隔表

1 个答案: