我正在考虑以下用于使用HDP 2.1设置群集的hadoop服务
- HDFS
- YARN
- MapReduce2
- Tez
- Hive
- WebHCat
- Ganglia
- Nagios
- ZooKeeper
我能想到3种节点类型
- NameNodes(例如:主要,次要)
- 应用程序节点(我最常访问hive服务,并复制代码存储库和任何其他代码工件)
- 数据节点(群集的主力)
醇>
鉴于上述情况,我知道有这些最佳实践和共同点
- Zookeeper服务应该在至少3个数据节点上运行
- DataNode服务应该在所有数据节点上运行
- Ganglia监视器应该在所有数据节点上运行
- 名称节点服务应该在名称节点上运行
- NodeManager应安装在包含DataNode组件的所有节点上。
这仍然留下许多未解决的问题:
- 这是安装大量所需服务器的理想节点:Hive Server,App Timeline Server,WebHCat Server,Nagios Server,Ganglia Server,MySQL server。是Application节点吗?应该每个人都有自己的节点?我们应该有一个独立的实用工具吗?节点?
- 是否有一些标准可以选择安装zookeeper的位置?
我认为更通用的问题是有一个表" Hadoop组件到节点映射基本上应该安装哪些组件"
寻求有关此主题的建议/见解/链接或文档。