我有一个S3存储桶,其中所有行数据都直接存储在其中(没有子文件夹)。我正在使用AWS Glue构建数据目录。现在,我有1000张桌子。但是我很快就会有更多。
我正在寻找一种创建爬网程序的解决方案,这些爬网程序可以聚合相似的表。 示例:我有10种这种格式的桌子
ABCDE.parquet_part0
ABCDE.parquet_part1
ABCDE.parquet_part2
ABCDE.parquet_part3
...
ABCDE.parquet_part9
如何在目录中获取1个表?
我不想为我喜欢的所有不同类型的表做子文件夹:
Myfolder / table1 /
Myfolder / table2 / ...
在搜寻器部分中,有一个部分用于管理排除。 我尝试过:[!ABCDE],!ABCDE,[!ABCDE *]等等。但是没有任何效果。
有人有想法吗?
感谢您的帮助