使用AWS Glue搜寻复杂的数据结构

时间:2020-01-03 07:39:57

标签: amazon-web-services amazon-s3 aws-glue

例如,我们有一个类似

的结构
1020/tablename1/clientname1/awd1.csv
1020/tablename1/clientname2/rggr2.csv
1030/tablename2/clientname3/awdw1.csv
1030/tablename2/clientname4/sdawd1.csv
...

是否可以使用标准AWS Glue爬网程序获取“表名”的架构?

不支持包含模式,否则我可以做

s3://*/tablename1/*/

我想要的是“跳过”,或者忽略客户端名称。 我也不能只为每个客户端添加一个数据存储,因为这会产生错误的结果。排除模式无济于事,因为它们也会排除文件。

可以要做的是创建一个脚本,该脚本可以像这样移动文件:

1020/tablename1/awd1.csv
1020/tablename1/rggr2.csv
1030/tablename2/awdw1.csv
1030/tablename2/sdawd1.csv
...

但是,当数据获取时,我将承受巨大的开销 已更新。

0 个答案:

没有答案