Question

管理多个Hadoop集群的客户端配置的最佳做法是什么？ “客户端”是指一个不属于集群但被某人用来向其提交作业的机器。

我可以想到两种可能性：为每个群集配置的不同虚拟机，或者只是在同一台机器上的不同目录中提取和配置工具。但我不确定一个人是否明显优于另一个，或者是否有其他选择。

对于许多使用Hadoop的人来说，这似乎是一个普遍问题，但我会以我的具体情况为例。我可以访问大型Hadoop集群和较小的测试/实验性Hadoop集群。它们的某些Hadoop工具的版本略有不同，因为测试集群有一个工具（Shark）需要安装在主集群上的另一个工具（Hive）的不同版本。

Answer 1

Cloudera安装会在替代方案中安装配置。

$ alternatives --display hadoop-conf
hadoop-conf - status is auto.
 link currently points to /etc/hadoop/conf.pseudo.mr1
/etc/hadoop/conf.empty - priority 10
/etc/hadoop/conf.pseudo.mr1 - priority 30
Current `best' version is /etc/hadoop/conf.pseudo.mr1.

您可以使用相同的技术在多种配置之间切换。

这是一个非常好的how-to。

如何管理配置以连接到多个Hadoop集群？

1 个答案: