我是cloudera的新手,我在系统中成功安装了cloudera我有两个疑问,
考虑一台机器,其中一些节点已经在使用带有一些数据的hadoop,我们是否可以安装Cloudera来使用现有的Hadoop,而不对现有的hadooop数据进行任何更改或修改。
我在我的机器上安装了Cloudera,我还有另外三台机器将这些机器添加为集群,我想知道,我想在将这些机器添加为集群之前在这三台机器中安装cloudera吗?或者我们可以添加吗?一个节点作为集群而没有在那个特定节点上安装cloudera?
任何人都可以提前感谢,请提供一些有关上述问题的信息。
答案 0 :(得分:2)
回答问题 -
<强> 1 即可。如果要从现有Apache Distribution迁移到CDH,可以follow this link
<强>摘录:强>
概述
迁移过程确实需要对Linux有一定的了解 系统管理。你应该在开始之前制定一个计划。您 将重新启动一些关键服务,如名称节点和 工作跟踪器,所以一些停机是必要的。鉴于价值 您的群集上的数据,您也需要小心最近 备份任何关键任务数据集以及名称节点 元数据。
如果您从a升级,备份数据是最重要的 基于Apache Software Foundation版本的Hadoop版本 早于0.20。
2 。需要在所有节点中安装和配置CDH二进制文件,以便启用并运行基于CDH的群集。
答案 1 :(得分:1)
您可以将数据从CDH3 (或任何Apache Hadoop)群集迁移到CDH4群集 使用并行复制数据的工具,例如DistCp工具 以CDH4提供。
关于你的第二个问题,
再次来自manual page
重要的: 在继续之前,您需要决定:
作为一般规则: NameNode和JobTracker在同一个“主”主机上运行,除非 集群很大(超过几十个节点)和主集群 主机(或主机)不应该 运行Secondary NameNode(如果使用),DataNode或TaskTracker 服务。在一个大型集群中,特别重要的是 Secondary NameNode(如果使用)在与其分开的计算机上运行 NameNode的。除主控主机外,群集中的每个节点都应该 运行DataNode和TaskTracker服务。
此外,如果您使用Cloudera Manager,它将自动执行所有必要的设置,即在群集中的节点上安装必要的选定组件。
偏离主题:我养成了不正确推荐手册的坏习惯。清楚地看一下它,它回答了我们所有的问题
答案 2 :(得分:0)
回答你的第二个问题, 你可以直接添加,安装一些先决条件,如openssh-clients和防火墙和java。
这些机器(现有节点,新三节点)应该接受相同的用户名和密码(或)你应该为这些主机设置无密码ssh ..
添加节点时应连接到互联网。
我希望它会对你有所帮助:)。