我每个星期都会将一些数据转储到没有子文件夹或分区的S3存储桶中。
文件有两种类型:
- full_id_"date of dump"_bz2
- not_full_"date of dump".bz2
具有"20191125"
格式的数据
我的目标是获取“ full_id”类型的文件,并进行一些转换以通过Athena查询它们。我已经编写了脚本的转换部分,我用一个文件对其进行了转换,然后将其复制到另一个存储桶中。
为了处理该文件夹中的所有文件,我考虑过对S3文件夹进行爬网程序(不包括“ not_full”文件),然后在由该爬网程序创建的表上启动Job。
我的问题是我想在文件名中添加"date of dump"
作为新列,并每周处理新文件。
感谢您的帮助