hadoop - Cloudera安装怀疑？

Cloudera安装怀疑？

时间：2013-07-24 02:41:22

标签： hadoop amazon-web-services apache-pig cloudera ganglia

我是cloudera的新手，我在系统中成功安装了cloudera我有两个疑问，

考虑一台机器，其中一些节点已经在使用带有一些数据的hadoop，我们是否可以安装Cloudera来使用现有的Hadoop，而不对现有的hadooop数据进行任何更改或修改。
我在我的机器上安装了Cloudera，我还有另外三台机器将这些机器添加为集群，我想知道，我想在将这些机器添加为集群之前在这三台机器中安装cloudera吗？或者我们可以添加吗？一个节点作为集群而没有在那个特定节点上安装cloudera？

任何人都可以提前感谢，请提供一些有关上述问题的信息。

3 个答案:

答案 0 :(得分：2)

回答问题 -

<强> 1 即可。如果要从现有Apache Distribution迁移到CDH，可以follow this link

<强>摘录：

概述

迁移过程确实需要对Linux有一定的了解   系统管理。你应该在开始之前制定一个计划。您   将重新启动一些关键服务，如名称节点和   工作跟踪器，所以一些停机是必要的。鉴于价值   您的群集上的数据，您也需要小心最近   备份任何关键任务数据集以及名称节点   元数据。

如果您从a升级，备份数据是最重要的   基于Apache Software Foundation版本的Hadoop版本   早于0.20。

2 。需要在所有节点中安装和配置CDH二进制文件，以便启用并运行基于CDH的群集。

答案 1 :(得分：1)

来自Cloudera Manual

您可以将数据从CDH3 （或任何Apache Hadoop）群集迁移到CDH4群集使用并行复制数据的工具，例如DistCp工具以CDH4提供。

Other sources

关于你的第二个问题，

再次来自manual page

重要的：在继续之前，您需要决定：

作为一般规则： NameNode和JobTracker在同一个“主”主机上运行，除非集群很大（超过几十个节点）和主集群主机（或主机）不应该运行Secondary NameNode（如果使用），DataNode或TaskTracker 服务。在一个大型集群中，特别重要的是 Secondary NameNode（如果使用）在与其分开的计算机上运行 NameNode的。除主控主机外，群集中的每个节点都应该运行DataNode和TaskTracker服务。

此外，如果您使用Cloudera Manager，它将自动执行所有必要的设置，即在群集中的节点上安装必要的选定组件。

_{偏离主题：我养成了不正确推荐手册的坏习惯。清楚地看一下它，它回答了我们所有的问题}

答案 2 :(得分：0)

回答你的第二个问题，你可以直接添加，安装一些先决条件，如openssh-clients和防火墙和java。

这些机器（现有节点，新三节点）应该接受相同的用户名和密码（或）你应该为这些主机设置无密码ssh ..

添加节点时应连接到互联网。

我希望它会对你有所帮助:)。