管理多个Hadoop集群的客户端配置的最佳做法是什么? “客户端”是指一个不属于集群但被某人用来向其提交作业的机器。
我可以想到两种可能性:为每个群集配置的不同虚拟机,或者只是在同一台机器上的不同目录中提取和配置工具。但我不确定一个人是否明显优于另一个,或者是否有其他选择。
对于许多使用Hadoop的人来说,这似乎是一个普遍问题,但我会以我的具体情况为例。我可以访问大型Hadoop集群和较小的测试/实验性Hadoop集群。它们的某些Hadoop工具的版本略有不同,因为测试集群有一个工具(Shark)需要安装在主集群上的另一个工具(Hive)的不同版本。
答案 0 :(得分:1)
Cloudera安装会在替代方案中安装配置。
$ alternatives --display hadoop-conf
hadoop-conf - status is auto.
link currently points to /etc/hadoop/conf.pseudo.mr1
/etc/hadoop/conf.empty - priority 10
/etc/hadoop/conf.pseudo.mr1 - priority 30
Current `best' version is /etc/hadoop/conf.pseudo.mr1.
您可以使用相同的技术在多种配置之间切换。
这是一个非常好的how-to。