应用错误收集

云数据流/波束：侧输入限制

时间：2017-09-07 14:19:18

标签： google-cloud-platform apache-beam

SideInput有点像Spark中的广播，这意味着您将数据缓存到本地工作机器以进行快速查找以减少网络/随机播放开销。考虑限制你应该有多少内存应该适合堆，这是合乎逻辑的。在Dataflow documentation中，它表示限制为20K分片。这是什么意思？碎片有多大？

1 个答案:

答案 0 :(得分：2)

要回答原始问题，可以通过命令行上的--workerCacheSizeMb选项配置Dataflow工作人员完成的内存中缓存量，如果要调用管道，则为setWorkerCacheSizeMb编程。默认值为100Mb。