在Google Cloud Dataflow 1.x中,我可能会访问这个名为的关键管道选项:
workerCacheMb
我试图进入我的光束0.6管道,但是不能这样做(它说没有这样的选项存在。)。然后,我浏览了选项源代码,看看是否有任何选项有类似名称 - 但我仍然无法找到它。
我需要设置它,因为我认为我的worfklow非常缓慢是由于侧面输入3GB但是看起来需要花费超过20分钟阅读。 (我有一个View.asList(),然后我试图在列表上进行for循环 - 它花了超过20分钟而且还在继续;即使是3 GB,那个&#39 ; s太慢了。)所以,我希望设置workerCacheMb会有所帮助。 (我唯一的其他理论是从serializablecoder切换到AvroCoder ....)
答案 0 :(得分:1)
您使用的是正确的选项吗?
以下代码适用于Beam:
DataflowWorkerHarnessOptions options = PipelineOptionsFactory.fromArgs(args).withValidation().create()
.cloneAs(DataflowWorkerHarnessOptions.class);
options.setWorkerCacheMb(3000);