SideInput有点像Spark中的广播,这意味着您将数据缓存到本地工作机器以进行快速查找以减少网络/随机播放开销。考虑限制你应该有多少内存应该适合堆,这是合乎逻辑的。在Dataflow documentation中,它表示限制为20K分片。这是什么意思?碎片有多大?
答案 0 :(得分:2)
要回答原始问题,可以通过命令行上的--workerCacheSizeMb
选项配置Dataflow工作人员完成的内存中缓存量,如果要调用管道,则为setWorkerCacheSizeMb
编程。默认值为100Mb。