我们正在数百个VM上运行多个kubernetes集群。每周都有几台虚拟机宕机。我们将其备份。我们的指标显示,这些VM出现故障时,CPU和内存使用率较低至中等。其他VM指标(如网络流量)也没有指向任何异常模式。当虚拟机关闭时,/ var / log / messages中没有特定的消息。
Kubernetes版本:1.9 Linux内核版本:4.1.12-124.19.5.el7uek.x86_64
还有其他日志或诊断信息,我们可以检查以确定VM中断的根本原因。
答案 0 :(得分:1)
通常,我们还会检查主机日志,特别是如果您正在以systemd的形式运行kubelet。
有一个关于digitalocean的很好的教程,记录了日记。
它可能会为您提供一些有关kube节点为何崩溃的线索。