增量加载s3文件夹文件

时间:2018-09-27 21:01:02

标签: python amazon-s3 amazon-redshift

使用python在s3文件夹文件中应用增量负载的简单方法是什么? 像这样从“ filename_180828_152153”中获取日期!

我尝试将所有文​​件名和日期插入表中,然后将最大文件名与表中的日期进行比较。

但是它花费了更多的时间,就像加载太多时间一样!

请咨询?

提前谢谢。

1 个答案:

答案 0 :(得分:2)

您想要的解决方案是由S3事件通知触发的Lambda函数。 https://docs.aws.amazon.com/lambda/latest/dg/with-s3.html

这个想法是,每当一个新对象上载到S3时,它将触发您定义的Lambda函数(例如,执行ELT,清理等操作),这更像是一种“推送”式的工作流程,不必担心比较。

S3事件通知使您可以定义一个规则,该规则对对象名称的前缀和/或后缀进行过滤,并向其添加事件触发器。 https://docs.aws.amazon.com/AmazonS3/latest/dev/NotificationHowTo.html