如何从基于事件的触发器执行CDAP的Google数据融合管道

时间:2020-09-09 02:10:05

标签: google-cloud-data-fusion cdap

有什么方法可以从基于CDAP事件的触发器中运行Google数据融合管道?

第一个要求是,每当一个新文件到达GCS存储桶中时。它将触发数据融合管道自动运行。

第二个要求是管道依赖性,例如,如果管道A没有启动或失败,则管道B无法运行。

谢谢

1 个答案:

答案 0 :(得分:2)

回顾您的初始用例,我假设对于第二个要求,您可以考虑查看CDAP纯组件,例如: Schedules Workflows Triggers

通常,使用一些条件执行模式为基础管道设计运行流,然后通过定义特定的 Workflow 来创建 Schedule 对象,该对象包含条件的逻辑组合在管道之间切换,并应用与您的事件发生相匹配的 Trigger's 模型。

根据CDAP文档:

工作流程可以通过CDAP CLILifecycle HTTP RESTful API进行控制。

如上所述,需要编写适当的HTTP请求以 CDAP REST API,包含JSON对象,该对象存储基于文档中的example和要创建的工作流的详细信息,以供创建参考,我创建了工作流程,而Pipeline_2仅在{ {1}}成功:

Pipeline_1

对于第一个要求,我不确定是否可以在Data Fusion / CDAP本机工具中实现,尽管我看不到此类事件,但与不断发现GCS存储桶:

触发触发事件,例如在操作系统中创建新分区 数据集,时间触发器的cron表达式的实现或 程序状态。

在这种情况下,我将研究写得很好的Cloud function的GCP Composer和GCP example,描述了如何将Cloud Functions用于基于事件的DAG触发器,假设特别是在Composer DAG文件中,您可以调用顺序Data Fusion流水线执行。请查看此堆栈thread,了解更多详细信息。