在Google云平台-数据流中,当流式传输无限制的PCollection(例如使用PubSubIO从PubSub主题中)时,是否存在一种有效的方法来启动和停止数据流中的光束管道? (示例在一天的开始运行,并在一天结束时结束) 是让调度程序拥有Cron App引擎服务并启动上述管道作业然后停止该作业的唯一方法吗?只是看看是否还有其他选择。
此外,如果我为无限制的PCollection选择窗口(例如,来自PubSub),是否有办法将文件写入可配置目录中。每个窗口的每小时目录?我看到它为每个窗口创建一个文件。
答案 0 :(得分:2)
我同意Pablo的观点,对于第一部分问题,Airflow(以及来自GCP的Cloud Composer)是一个不错的选择。
关于问题的第二部分,您可以看到Google提供的流传输管道from Cloud Pub/Sub to Google Cloud Storage files的数据流模板,您可以通过将outputDirectory设置为gs:/// YYYY / MM / DD来轻松创建每小时目录/ HH /,它将自动将YYYY,MM,DD和HH替换为间隔窗口的值。
如果您需要使此模板适应您的特定需求,则可以选中the source code of the template。
答案 1 :(得分:1)
您应该签出Apache Airflow (incubating),这是AirBnB捐赠的一个新项目,它可以安排工作流程,其中还支持Apache Beam。