应用错误收集

我每个星期都会将一些数据转储到没有子文件夹或分区的S3存储桶中。

文件有两种类型：

- full_id_"date of dump"_bz2
- not_full_"date of dump".bz2

具有"20191125"格式的数据

我的目标是获取“ full_id”类型的文件，并进行一些转换以通过Athena查询它们。我已经编写了脚本的转换部分，我用一个文件对其进行了转换，然后将其复制到另一个存储桶中。

为了处理该文件夹中的所有文件，我考虑过对S3文件夹进行爬网程序（不包括“ not_full”文件），然后在由该爬网程序创建的表上启动Job。

我的问题是我想在文件名中添加"date of dump"作为新列，并每周处理新文件。

感谢您的帮助