Google Dataflow在Windows之间共享资源

时间:2017-04-10 20:50:24

标签: google-bigquery google-cloud-dataflow apache-beam

我目前正在构建一个谷歌数据流管道,在运行时写入多个大型查询表。我目前面临的问题是,我需要重新使用大查询服务实例,表信息等资源(我不想每次都重新创建这些资源)但是我无法将它们缓存在一个有效的方式。

目前我正在使用一个简单的工厂来缓存它们(使用静态并发哈希映射)。管道似乎没有从缓存中选择那些(实际上它只执行了几次,但大多数都是重新创建的)。

我看到一些使用固定大小会话窗口的方法,但如果存在任何问题,我需要更简单的解决方案。

那么,对于我所面临的当前问题,是否有任何最佳实践或解决方案。 有没有办法在Windows之间共享资源?

1 个答案:

答案 0 :(得分:0)

实际上我错放了记录信息,这会让结果反转(我的坏)。但是静态工厂与管道作业分离的解决方案似乎解决了资源共享问题。希望这有助于任何有类似问题的人进一步:)