r - Ubuntu集群管理

Ubuntu集群管理

时间：2011-04-05 06:50:33

标签： r ubuntu hadoop cluster-computing

我正在试图找到一个管理一组Linux机器的解决方案（操作系统：Ubuntu，~40个节点。相同的硬件）。这些机器应该是彼此的映像，安装在其中的软件需要安装在其他机器中。我的软件要求是hadoop，R和servicemix。所有机器上的R软件包也需要同步（安装在一个机器上的软件包需要在所有其他机器上都可用）

我现在使用的一个解决方案是使用NFS和pssh。我希望有一个更好/更容易的解决方案，这将使我的生活更轻松。任何建议都表示赞赏。

2 个答案:

答案 0 :(得分：5)

两个流行的选择是来自Puppet Labs的Puppet和来自OpsCode的Chef。

另一种可能的机制是创建一个新的元数据包，Requires:要在所有机器上安装的软件包。修改元数据包时，apt-get update && apt-get -u dist-upgrade会同时在所有系统上安装新软件包。

元数据包方法最初的配置和使用可能较少，但从长远来看，Puppet或Chef可能会提供更好的投资回报，因为它们可以管理的不仅仅是软件包安装。

答案 1 :(得分：3)

我过去使用过低技术的apporach，只需共享/usr/local/（至少部分）/usr/local/lib/R/site-library/中的公共R库。我想这也适用于你的Hadoop安装。

我试图将其余部分保留在Debian / Ubuntu软件包中并保持所有节点都是最新的。本地R和Ubuntu软件包存储库（对于本地创建的软件包）也可以提供帮助，但需要更多工作。