应用错误收集

如何减少在Kubernetes上检测节点故障时间的时间？

时间：2019-04-22 09:30:14

标签： kubernetes

我有2个Slave和1个Master节点kubernetes集群。当一个节点崩溃时，大约需要5分钟才能看到kubernetes失败。我正在对卷使用动态预配置，这次对我来说有点多了。减少检测故障的时间？我发现了一个关于它的帖子： https://fatalfailure.wordpress.com/2016/06/10/improving-kubernetes-reliability-quicker-detection-of-a-node-down/

在文章的底部，我们可以通过更改参数来减少检测时间：

kubelet：node-status-update-frequency = 4s（从10s开始）
控制器管理器：node-monitor-period = 2s（从5s开始）
控制器管理员：node-monitor-grace-period = 16s（从40s开始）
控制器管理员：pod-eviction-timeout = 30s（从5m开始）

我可以从kubelet更改node-status-update-frequency参数，但是在cli上没有任何控制器管理器程序或命令。如何更改该参数？关于减少检测停机时间的任何其他建议将不胜感激。

2 个答案:

答案 0 :(得分：1)

..但是我没有任何控制器管理器程序或命令 cli。如何更改该参数？

您可以在controller-manger系统单元文件中更改/添加该参数，然后重新启动守护程序。请检查手册页中的controller-manager here。

如果您将controller-manager部署为微服务（pod），请检查该pod的清单文件，并在容器的command部分更改参数（例如this）

答案 1 :(得分：0)

它实际上是 kube-controller-manager 。对于kube-controller-manager，您还可以将--attach-detach-detach-conconile-sync-period从1m减少为15或30秒。这将允许更快地执行卷附加-分离操作。更改这些参数的方式取决于设置群集的方式。