如何使用Dataflow Java SDK处理节点间通信。意思是,提交给Dataflow管道的作业所有者是否对集群维护和调度有细粒度的控制?
似乎这是为用户自动管理的,因为Dataflow使用向Kubernetes API服务器注册的容器VM。
如果需要影响群集调度的能力,我会看到两种可能性 - a)访问原始套接字(如果可用,如何?)或 b)为节点间通信注入代码,例如Akka'在Spark中。为此,可以在Transforms或PCollections中根据需要开发用户定义的函数吗?
答案 0 :(得分:2)
正如问题中所提到的,Dataflow是一个完全托管的服务,因此根本不需要管理集群。因此,没有用于影响集群调度的API等。
如果您需要在变换之间传递数据,可以查看side inputs。这允许您广播PCollection并将其用作DoFn的附加输入。
如果您可以分享更具体的用例,我们可以提供有关可用内容的更多详细信息。