如果我已经在同一台三台计算机上安装了Ambari的Hadoop集群,我可以在第二个带有CDH的Hadoop集群吗? 如果是,我如何将原始群集上的数据迁移到新群集? 感谢。
答案 0 :(得分:1)
是的,你可以,但这不是一项简单的任务。您将在HDP和CDH服务之间发生端口冲突。因此,您必须为CDH群集选择不同的端口。另一个需要注意的痛点 - 两个集群都希望使用/ etc / hadoop,/ etc / hive,...来存储配置文件。因此,应将其中一个群集配置为使用其他位置。
关于数据迁移,请使用distcp。
答案 1 :(得分:1)
你想要完成的事情被称为" Ambari Takeover"或"集群接管"。有关详细信息,请参阅this讨论。
这里有一些重要的注意事项: 这将是非常具有挑战性和复杂性,因为您将不得不执行新的Ambari设置并在没有数据库备份的情况下完成现有HDP群集的Ambari接管。您有三种选择:
如果群集不是生产并且有清理群集的可行性,那么我建议使用Ambari清理群集并设置新群集。这将为您节省大量时间。即使有一些数据,只需花时间和精力进行权衡,以备份数据并进行全新安装,然后执行Ambari Takeover,如下两个选项中的高级别所述。
使用Ambari API进行群集接管安装Ambari Server和Ambari数据库,如同在新计算机上更早。更新Ambari-Agents以指向Ambari服务器主机。使用Ambari API执行集群接管,即添加集群,添加主机,注册服务和组件,注册主机组件。请参阅下面的Ambari API。 https://cwiki.apache.org/confluence/display/AMBARI/API+usage+scenarios%2C+troubleshooting%2C+and+other+FAQs
第三个选项是使用Ambari执行虚拟群集安装,然后在Ambari中更新配置。
注意: 确保以常规频率继续使用数据库,安装目录和配置备份,并将其移至另一个备份服务器或HDFS以避免由于硬件故障而导致的进一步问题。 注意:确保以常规频率继续使用数据库,安装目录和配置备份,并将其移至另一个备份服务器或HDFS以避免由于硬件故障而导致的进一步问题。