我需要在我的Dataflow管道中使用JNI。 JNI使用的C ++库对其他系统库有很多外部依赖性。当一个worker运行使用C ++库的DoFn时,确保库是应该在操作系统中的最佳方法是什么?
我发现DataflowPipelineOptions.setWorkerHarnessContainerImage可能允许我指定来自 Google容器注册表的自定义docker镜像,我可能会安装一堆库,但文档并没有说得更多。在已安装的软件包,入口点等方面是否对docker镜像有任何要求......?
答案 0 :(得分:0)
Apache Beam最近发布了一个来自Dataflow工作者的example个调用子流程。解决方案downloads二进制动态在DoFn的@Setup method内,然后executes为管道处理的每条记录的二进制文件。该解决方案还处理collecting进程的输出并将故障传播到管道。