使用文件名中的日期作为列来分区数据

时间:2019-09-05 14:17:05

标签: amazon-s3 aws-glue

我每个星期都会将一些数据转储到没有子文件夹或分区的S3存储桶中。

文件有两种类型:

- full_id_"date of dump"_bz2
- not_full_"date of dump".bz2

具有"20191125"格式的数据

我的目标是获取“ full_id”类型的文件,并进行一些转换以通过Athena查询它们。我已经编写了脚本的转换部分,我用一个文件对其进行了转换,然后将其复制到另一个存储桶中。

为了处理该文件夹中的所有文件,我考虑过对S3文件夹进行爬网程序(不包括“ not_full”文件),然后在由该爬网程序创建的表上启动Job。

我的问题是我想在文件名中添加"date of dump"作为新列,并每周处理新文件。

感谢您的帮助

0 个答案:

没有答案