我有一个luigi任务,应该选择redshift表的最新更新并将其发送到API。我可以手动将最近更新的日期添加到我的选择中,以便仅获取新日期。但是要做到这一点,我要么不得不猜测最后一个日期是何时基于运行任务的时间表进行的(但是可能会因为任务在其之前运行而被延迟),或者我每次提取数据时都必须将该日期保存在某个地方
我听说luigi也许可以只获取最新记录。我看到有一个table_updates
表填充了luigi,我想知道是否有人更了解luigi,是否可以让我知道是否还有其他luigi方法。
到目前为止,我将使用的方法可能是:
last_retrieval_times
)SELECT * FROM accounts WHERE created_at > last_retrieval_time
created_at
时间保存在last_retrieval_times
表中