云数据流/波束:侧输入限制

时间:2017-09-07 14:19:18

标签: google-cloud-platform apache-beam

SideInput有点像Spark中的广播,这意味着您将数据缓存到本地工作机器以进行快速查找以减少网络/随机播放开销。考虑限制你应该有多少内存应该适合堆,这是合乎逻辑的。在Dataflow documentation中,它表示限制为20K分片。这是什么意思?碎片有多大?

1 个答案:

答案 0 :(得分:2)

要回答原始问题,可以通过命令行上的--workerCacheSizeMb选项配置Dataflow工作人员完成的内存中缓存量,如果要调用管道,则为setWorkerCacheSizeMb编程。默认值为100Mb。