应用错误收集

我们使用Combine.PerKey和自定义KeyedCombineFn对几个PCollections执行连接。在AfterProcessingTime.pastFirstElementInPane上使用Repeatedly.forever触发器将PCollections分配给GlobalWindow。

PCollections包含大约1M个键，但对于给定键，只有几百个元素。 KeyedCombineFn在其累加器中保留大约几KB（有时高达5 MB）的数据。

现在我们已经增加了我们在管道中处理的数据量，我们看到java.lang.OutOfMemoryError：Java堆空间错误。该管道在Google Cloud Dataflow上的n1-highmem-4计算机上运行。

我们的假设是Dataflow工作人员独立地管理每个密钥的状态，并具有启发式功能，可根据可用的RAM数量将其写入/加载到磁盘。因此，目标是让个人状态适合一个工人的记忆。

这个假设是否正确？如果是这样，为什么我们会看到OOM错误？如果没有，您是否介意详细说明Dataflow工作人员如何在内存中管理状态？

Combine.PerKey在全局窗口中的内存使用情况

1 个答案: