有什么方法可以从基于CDAP事件的触发器中运行Google数据融合管道?
第一个要求是,每当一个新文件到达GCS存储桶中时。它将触发数据融合管道自动运行。
第二个要求是管道依赖性,例如,如果管道A没有启动或失败,则管道B无法运行。
谢谢
答案 0 :(得分:2)
回顾您的初始用例,我假设对于第二个要求,您可以考虑查看CDAP纯组件,例如: Schedules , Workflows 和 Triggers 。
通常,使用一些条件执行模式为基础管道设计运行流,然后通过定义特定的 Workflow 来创建 Schedule 对象,该对象包含条件的逻辑组合在管道之间切换,并应用与您的事件发生相匹配的 Trigger's 模型。
根据CDAP文档:
工作流程可以通过CDAP CLI和Lifecycle HTTP RESTful API进行控制。
如上所述,需要编写适当的HTTP请求以
CDAP REST API,包含JSON对象,该对象存储基于文档中的example和要创建的工作流的详细信息,以供创建参考,我创建了工作流程,而Pipeline_2
仅在{ {1}}成功:
Pipeline_1
对于第一个要求,我不确定是否可以在Data Fusion / CDAP本机工具中实现,尽管我看不到此类事件,但与不断发现GCS存储桶:
触发触发事件,例如在操作系统中创建新分区 数据集,时间触发器的cron表达式的实现或 程序状态。
在这种情况下,我将研究写得很好的Cloud function的GCP Composer和GCP example,描述了如何将Cloud Functions用于基于事件的DAG触发器,假设特别是在Composer DAG文件中,您可以调用顺序Data Fusion流水线执行。请查看此堆栈thread,了解更多详细信息。