具有SQLActivity的AWS DataPipeline插入状态

时间:2019-02-19 21:52:12

标签: sql-server amazon-web-services aws-data-pipeline

我正在寻找一种在DB表中记录管道状态的方法。假设这是一个非常常见的用例。 有什么办法可以记录

  1. 完整管道的状态和完成时间。
  2. 所选活动的状态和完成时间。
  3. 单个运行/执行的ID。

我发现的唯一方法是使用依赖于单个活动的SQLActivity,但是即使在那儿,我也无法访问父/节点的状态或时间戳。

我正在使用jdbc连接来连接到远程SQLServer。管道用于将S3文件复制到SQLServer DB中。

1 个答案:

答案 0 :(得分:0)

嗯...我还没有尝试过,但是我可以用一些指针打你,以达到预期的效果。但是,您将必须进行研究并找出实际的实现方式。

选项1

  • 创建一个ShellCommandActivity,将depends on设置为管道中的最后一个活动。您的外壳程序将使用aws-cli来list-runs当前运行的详细信息,您可以使用过滤器来实现。
  • 使用Staging Data将先前ShellActivity的输出移至SQLActivity,以最终插入到目标SQLServer中。

选项2

  • 使用AWS Lambda通过过滤器定期运行aws-cli数据管道list-runs,并使用最新活动更新目标表。 Resource