有问题的应用程序正在运行(在?) Kubernetes(Google容器引擎)处理常规的kafka数据流。数据在所有pod中均匀分配(使用随机密钥来防止'热点' 1 )。
80-90%的流程将无限期运行,但有些流程会显示如下内存:
什么会导致应该是相同的进程的特定实例才能产生这些峰值?正如我所说 - 数据是同质的,并且在所有消费者之间平均分配,因此没有理由让一个实例做更多的工作。
显然,这些异常值有所不同。有些事情迫使分配被提升为 Old Gen 。在同一时期,其他豆荚显示(大致)甚至<1% Young Gen GC。
以下是同一时间范围内的第二个例子:
1 其他监测表明这是准确的。