胶水S3目标路径匹配两个特定级别的子文件夹

时间:2019-02-28 03:22:31

标签: aws-glue

bucket/
├── seoul/
│   ├── weather/
│   │   └── data.json
│   └── gdp/
│       └── data.json
├── tokyo/
│   ├── weather/
│   │   └── data.json
│   ├── gdp/
│   │   └── data.json
│   └── transit/
│       └── data.json
├── seattle/
│   ├── weather/
│   │   └── data.json
│   └── cost-of-living/
│       └── data.json
├ ....

我想对我的存储桶中的所有weather数据进行爬网。 如AWS Doc中所述,我将S3目标路径设置为

s3://bucket/*/weather

但是胶粘剂搜寻器不匹配任何数据。创建0个表。我应该如何设置粘合目标,以便收集所有天气数据?

2 个答案:

答案 0 :(得分:0)

排除模式支持全局模式。因此,根据您的情况,尝试将目标设置为s3://bucket/并为*/gdp/**,*/transit/**,*/cost-of-living/**添加排除项

答案 1 :(得分:0)

如果没有太多要排除的文件夹,@ Yuriy Bondaruk会给出很好的答案。但是,就我而言,有许多文件夹要排除,并且不能保证当前文件树是固定的。

因此,我将构建嵌套 cloudFormation。

  1. BASE Cloudformation:以城市为输入并运行搜寻器。
  2. 非常长的Cloudformation模板:输入城市名称作为参数并调用BASE cloudformation。