我有多个google-dataflow作业用于数据收集和ETL目的。 然后google dataproc job(Spark)进行进一步的机器学习。
我想像工作流一样将这些工作联系在一起,然后我应该能够安排整个工作流程。
你有什么建议/产品可以帮助我吗?
答案 0 :(得分:1)
我现在还不知道GCP上有什么好的答案,但这里有几个选择:
答案 1 :(得分:0)
我们为此实施了两种方法......
用于调用数据业务作业的自定义解决方案。这包括Spring调度程序来调用Dataproc&使用Google Sdk API的数据流
在流模式下运行的一个数据业务作业,此流式模式数据业务作业管理其他数据业务和数据流作业。我们将消息发送到pub-sub,流模式接收消息,然后再调用链。
我更喜欢第二种解决方案,因为我们使用云形成等管理Spring应用程序
第二种解决方案需要额外支付24 * 7运行数据业务作业的成本。