路易吉:如何仅加载最新更改

时间:2019-04-18 02:57:21

标签: python luigi

我有一个luigi任务,应该选择redshift表的最新更新并将其发送到API。我可以手动将最近更新的日期添加到我的选择中,以便仅获取新日期。但是要做到这一点,我要么不得不猜测最后一个日期是何时基于运行任务的时间表进行的(但是可能会因为任务在其之前运行而被延迟),或者我每次提取数据时都必须将该日期保存在某个地方

我听说luigi也许可以只获取最新记录。我看到有一个table_updates表填充了luigi,我想知道是否有人更了解luigi,是否可以让我知道是否还有其他luigi方法。

到目前为止,我将使用的方法可能是:

  • 创建一个表以存储上次拉动时间(last_retrieval_times
  • 然后获取该表中的最新行以查找最后的检索时间
  • 然后执行类似的操作:SELECT * FROM accounts WHERE created_at > last_retrieval_time
  • 然后将最新记录的created_at时间保存在last_retrieval_times表中

0 个答案:

没有答案