使用python在s3文件夹文件中应用增量负载的简单方法是什么? 像这样从“ filename_180828_152153”中获取日期!
我尝试将所有文件名和日期插入表中,然后将最大文件名与表中的日期进行比较。
但是它花费了更多的时间,就像加载太多时间一样!
请咨询?
提前谢谢。
答案 0 :(得分:2)
您想要的解决方案是由S3事件通知触发的Lambda函数。 https://docs.aws.amazon.com/lambda/latest/dg/with-s3.html
这个想法是,每当一个新对象上载到S3时,它将触发您定义的Lambda函数(例如,执行ELT,清理等操作),这更像是一种“推送”式的工作流程,不必担心比较。
S3事件通知使您可以定义一个规则,该规则对对象名称的前缀和/或后缀进行过滤,并向其添加事件触发器。 https://docs.aws.amazon.com/AmazonS3/latest/dev/NotificationHowTo.html