例如,我们有一个类似
的结构1020/tablename1/clientname1/awd1.csv
1020/tablename1/clientname2/rggr2.csv
1030/tablename2/clientname3/awdw1.csv
1030/tablename2/clientname4/sdawd1.csv
...
是否可以使用标准AWS Glue爬网程序获取“表名”的架构?
不支持包含模式,否则我可以做
s3://*/tablename1/*/
我想要的是“跳过”,或者忽略客户端名称。 我也不能只为每个客户端添加一个数据存储,因为这会产生错误的结果。排除模式无济于事,因为它们也会排除文件。
我可以要做的是创建一个脚本,该脚本可以像这样移动文件:
1020/tablename1/awd1.csv
1020/tablename1/rggr2.csv
1030/tablename2/awdw1.csv
1030/tablename2/sdawd1.csv
...
但是,当数据获取时,我将承受巨大的开销 已更新。