我有一个Pod,该Pod运行一个Java磁盘启动服务,该服务占用磁盘空间,并且由于内核内存(假设是inode和页面现金)增加,直到达到极限(3Gb)时,最终被OOMkilled。这大约需要2天。这是我们正在调查的单独问题
但是问题在于,第一次重新启动后,它每次都会越来越快地被OOMKilled,直到它陷入Crashloop为止。它首先持续1小时,然后越来越少。 kubectl top pods
显示内存恢复正常,但容器仍然突然被杀死。
所以我的问题是:
使用kubectl delete pod
删除广告连播即可完成该工作,并且该工作将再持续2天。可能是因为节点释放了Pod并重新分配了它。
我们基本上记录了从/sys/fs/cgroup/memory
文件夹中获取数据的Pod的内存值,并且在第一次重新启动后,这些值恢复正常,但仍被终止。
我们正在使用:
1.8.0_191-8u191-b12-2ubuntu0.18.04.1-b12
)