我正在GCS上提取2个不同的数据集。可以说我分别在不同的时间在pubsub中写了一个事件e1和事件e2。
我想在上午9点开始工作,并检查事件e1和e2在当天的特定时间(上午9点之后)都发生了,然后启动一个过程,从这两个数据集中生成另一个数据集。
Cloud作曲家有权建立这种要求。如果是,那么请提供一些指导如何完成
答案 0 :(得分:0)
Cloud Composer(和Airflow)应该适合该用例。
您可以创建一个DAG,其每日schedule_interval
从上午9点开始。每个事件(s1
和s2
)使用PubsubSensor。假设生成另一个数据集的过程是一个运算符,则可以通过设置依赖项来确保generate_dataset
发生:
s1 >> generate_dataset
s2 >> generate_dataset