应用错误收集

有问题的应用程序正在运行（在？） Kubernetes（Google容器引擎）处理常规的kafka数据流。数据在所有pod中均匀分配（使用随机密钥来防止'热点'¹）。

80-90％的流程将无限期运行，但有些流程会显示如下内存：

什么会导致应该是相同的进程的特定实例才能产生这些峰值？正如我所说 - 数据是同质的，并且在所有消费者之间平均分配，因此没有理由让一个实例做更多的工作。

显然，这些异常值有所不同。有些事情迫使分配被提升为 Old Gen 。在同一时期，其他豆荚显示（大致）甚至<1％ Young Gen GC。

以下是同一时间范围内的第二个例子：

¹其他监测表明这是准确的。