apache beam 0.6中缺少--workerCacheMB设置?

时间:2017-06-04 02:25:57

标签: google-cloud-dataflow

在Google Cloud Dataflow 1.x中,我可能会访问这个名为的关键管道选项: workerCacheMb

我试图进入我的光束0.6管道,但是不能这样做(它说没有这样的选项存在。)。然后,我浏览了选项源代码,看看是否有任何选项有类似名称 - 但我仍然无法找到它。

我需要设置它,因为我认为我的worfklow非常缓慢是由于侧面输入3GB但是看起来需要花费超过20分钟阅读。 (我有一个View.asList(),然后我试图在列表上进行for循环 - 它花了超过20分钟而且还在继续;即使是3 GB,那个&#39 ; s太慢了。)所以,我希望设置workerCacheMb会有所帮助。 (我唯一的其他理论是从serializablecoder切换到AvroCoder ....)

1 个答案:

答案 0 :(得分:1)

您使用的是正确的选项吗?

以下代码适用于Beam:

    DataflowWorkerHarnessOptions options = PipelineOptionsFactory.fromArgs(args).withValidation().create()
            .cloneAs(DataflowWorkerHarnessOptions.class);

    options.setWorkerCacheMb(3000);