Cloudera安装怀疑?

时间:2013-07-24 02:41:22

标签: hadoop amazon-web-services apache-pig cloudera ganglia

我是cloudera的新手,我在系统中成功安装了cloudera我有两个疑问,

  • 考虑一台机器,其中一些节点已经在使用带有一些数据的hadoop,我们是否可以安装Cloudera来使用现有的Hadoop,而不对现有的hadooop数据进行任何更改或修改。

  • 我在我的机器上安装了Cloudera,我还有另外三台机器将这些机器添加为集群,我想知道,我想在将这些机器添加为集群之前在这三台机器中安装cloudera吗?或者我们可以添加吗?一个节点作为集群而没有在那个特定节点上安装cloudera?

任何人都可以提前感谢,请提供一些有关上述问题的信息。

3 个答案:

答案 0 :(得分:2)

回答问题 -

<强> 1 即可。如果要从现有Apache Distribution迁移到CDH,可以follow this link

<强>摘录:

  

概述

     

迁移过程确实需要对Linux有一定的了解   系统管理。你应该在开始之前制定一个计划。您   将重新启动一些关键服务,如名称节点和   工作跟踪器,所以一些停机是必要的。鉴于价值   您的群集上的数据,您也需要小心最近   备份任何关键任务数据集以及名称节点   元数据。

     

如果您从a升级,备份数据是最重要的   基于Apache Software Foundation版本的Hadoop版本   早于0.20。

2 。需要在所有节点中安装和配置CDH二进制文件,以便启用并运行基于CDH的群集。

答案 1 :(得分:1)

来自Cloudera Manual

  

您可以将数据从CDH3 (或任何Apache Hadoop)群集迁移到CDH4群集   使用并行复制数据的工具,例如DistCp工具   以CDH4提供。

Other sources

关于你的第二个问题,

再次来自manual page

重要的: 在继续之前,您需要决定:

  

作为一般规则:   NameNode和JobTracker在同一个“主”主机上运行,​​除非   集群很大(超过几十个节点)和主集群   主机(或主机)不应该   运行Secondary NameNode(如果使用),DataNode或TaskTracker   服务。在一个大型集群中,特别重要的是   Secondary NameNode(如果使用)在与其分开的计算机上运行   NameNode的。除主控主机外,群集中的每个节点都应该   运行DataNode和TaskTracker服务。

此外,如果您使用Cloudera Manager,它将自动执行所有必要的设置,即在群集中的节点上安装必要的选定组件。

偏离主题:我养成了不正确推荐手册的坏习惯。清楚地看一下它,它回答了我们所有的问题

答案 2 :(得分:0)

回答你的第二个问题, 你可以直接添加,安装一些先决条件,如openssh-clients和防火墙和java。

这些机器(现有节点,新三节点)应该接受相同的用户名和密码(或)你应该为这些主机设置无密码ssh ..

添加节点时应连接到互联网。

我希望它会对你有所帮助:)。