我担心为Google Cloud Dataproc群集设置单个主节点可能会引入单点故障。我希望我的集群在出现意外的主故障的情况下(更具弹性)。
是否可以配置我的Cloud Dataproc群集,以便它使用某种形式的高可用性来降低单个主服务器故障的风险?理想情况下,我也希望使用YARN / Hadoop / HDFS高可用性的标准方法,因此不需要(或必需)定制软件。
答案 0 :(得分:1)
Google Cloud Dataproc在服务中内置了高可用性(HA)模式。在HA模式下,Cloud Dataproc集群支持HDFS High Availability和YARN High Availability,并且两个组件都配置为允许不间断的YARN和HDFS操作,尽管任何单节点故障/重新启动。
有关Cloud Dataproc HA模式的一些重要事项需要注意:
有关Cloud Dataproc HA模式的更多信息,请see the documentation。该文档还提供了有关如何在作业工具/ API之外向集群提交工作的说明。