应用错误收集

我在一家大型电信商店工作。其中一个主要的Hadoop集群（HDP）有大约600个节点。它几乎每月升级一些其他维护。每次这样做需要几个小时到几天，并且必须关闭在其上运行的所有应用程序。我无法想象在其他公司中执行如此重要工作的集群会经常中断这么长时间。我问为什么我们不进行滚动升级？这是主要建筑师的答案之一。这是真的吗？贵公司的升级怎么样？

关于滚动升级，我要小心每个人了解在此过程中会发生什么。每小时最多12个节点升级到下一版HDP。随着这个过程的继续每过一小时，集群的容量就会减少X. 完成的节点数。群集进入时大多数服务需要重启75％的邻域。核心服务在正常运行时处理，例如MapReduce， HDFS，名称节点HA，资源管理器HA，Zookeeper和Hive HA（如果有）已配置。 Spark，Kafka，Storm和其他服务都没有包含在滚动升级中，没有停机时间。快递升级了允许我们的团队在更快的时间内升级集群。群集的最后一次升级是5个小时。我相信这个问题你在2天4小时内说出的停机时间是不正确的对于实际的HDP停机时间。这可能是整个维护其中包括Ambari升级，HDP升级，停止工作，完整性检查，并重新启动所有工作以完成赶超批量处理。我想建议你的团队参与将要发送的消息并停止工作升级将在星期六执行的时间早上。升级完成后，您就可以开始升级了再次工作，将发出另一个通知。

滚动升级Hadoop集群？

0 个答案: