应用错误收集

例如，我们有一个类似

的结构

1020/tablename1/clientname1/awd1.csv
1020/tablename1/clientname2/rggr2.csv
1030/tablename2/clientname3/awdw1.csv
1030/tablename2/clientname4/sdawd1.csv
...

是否可以使用标准AWS Glue爬网程序获取“表名”的架构？

不支持包含模式，否则我可以做

s3://*/tablename1/*/

我想要的是“跳过”，或者忽略客户端名称。我也不能只为每个客户端添加一个数据存储，因为这会产生错误的结果。排除模式无济于事，因为它们也会排除文件。

我可以要做的是创建一个脚本，该脚本可以像这样移动文件：

1020/tablename1/awd1.csv
1020/tablename1/rggr2.csv
1030/tablename2/awdw1.csv
1030/tablename2/sdawd1.csv
...

但是，当数据获取时，我将承受巨大的开销已更新。

使用AWS Glue搜寻复杂的数据结构

0 个答案: