如何减少在Kubernetes上检测节点故障时间的时间?

时间:2019-04-22 09:30:14

标签: kubernetes

我有2个Slave和1个Master节点kubernetes集群。当一个节点崩溃时,大约需要5分钟才能看到kubernetes失败。我正在对卷使用动态预配置,这次对我来说有点多了。减少检测故障的时间? 我发现了一个关于它的帖子: https://fatalfailure.wordpress.com/2016/06/10/improving-kubernetes-reliability-quicker-detection-of-a-node-down/

在文章的底部,我们可以通过更改参数来减少检测时间:

kubelet:node-status-update-frequency = 4s(从10s开始)
控制器管理器:node-monitor-period = 2s(从5s开始)
控制器管理员:node-monitor-grace-period = 16s(从40s开始)
控制器管理员:pod-eviction-timeout = 30s(从5m开始)

我可以从kubelet更改node-status-update-frequency参数,但是在cli上没有任何控制器管理器程序或命令。如何更改该参数?关于减少检测停机时间的任何其他建议将不胜感激。

2 个答案:

答案 0 :(得分:1)

  

..但是我没有任何控制器管理器程序或命令   cli。如何更改该参数?

您可以在controller-manger系统单元文件中更改/添加该参数,然后重新启动守护程序。请检查手册页中的controller-manager here

如果您将controller-manager部署为微服务(pod),请检查该pod的清单文件,并在容器的command部分更改参数(例如this

答案 1 :(得分:0)

它实际上是 kube-controller-manager 。对于kube-controller-manager,您还可以将--attach-detach-detach-conconile-sync-period从1m减少为15或30秒。这将允许更快地执行卷附加-分离操作。更改这些参数的方式取决于设置群集的方式。