哪一个最好:物理系统上的Apache Ambari集群有5台机器或安装在具有不同5 VM的虚拟机上?

时间:2017-06-03 12:57:03

标签: hadoop vagrant virtual-machine ambari bigdata

您好我正在开发我的一个项目,我已经创建了5台机器的VM,它在开发环境中运行良好,但我对VM群集很好或者需要使用物理系统群集感到困惑。

2 个答案:

答案 0 :(得分:1)

Hadoop是为物理系统开发的,但它在虚拟环境中可以取得不同程度的成功,它取决于具体的环境。

这实际上是关于hadoop邮件列表的一个常见问题,Hadoop开发人员在Hadoop Wiki文章中专门解决了这个问题:Virtual Hadoop。本文介绍了每种方法的优点/缺点,并讨论了云部署。您应该阅读本文,了解您所处的部署方案,并评估您在VM设置中可能存在的问题。

答案 1 :(得分:0)

如果要将虚拟机用于HDFS,请注意复制。默认情况下,HDFS以64mb块的形式存储所有数据,并将每个块复制到3个不同的节点。此外,至少有一个副本应位于不同的物理机架中 - 请参阅"机架感知"特征。如果虚拟化数据的所有3个副本恰好位于单个物理主机/ HDD上,则在硬件故障的情况下可能会遇到问题。

另一个潜在的警告可能是I / O性能。如果您使用基于文件的磁盘映像进行VM而不是直接访问磁盘,则I / O开销可能相当大。此外,在许多情况下,虚拟机无法利用物理主机上的文件系统缓存。

另一方面,VM管理和配置应该更容易。

否则,请参阅https://stackoverflow.com/a/44355754/1421254回答。