如何部署Spark,它可以实现最高的资源利用率

时间:2014-10-07 14:30:50

标签: hadoop docker apache-spark openstack apache-cloudstack

我有10台服务器(16G内存,8个内核),想要部署Hadoop和Spark,你能告诉我哪个计划可以最大限度地利用资源吗?

  1. 立即部署;

  2. 安装Openstack,将环境部署到虚拟机中;

  3. 使用Docker,例如Docker上的Spark;

  4. 我知道与使用场景相关的资源利用率,实际上我想知道上述三个计划的优缺点。

    谢谢。

1 个答案:

答案 0 :(得分:0)

为了获得最高的资源利用率,为Spark和Hadoop部署单个资源管理器将是最佳方法。有两种选择:

  • 使用YARN部署Hadoop集群,因为Spark可以在YARN上运行。
  • 部署Apache Mesos群集,并在其上运行Hadoop job和Spark。

隔离Spark群集和Hadoop群集没有优势,并且会导致更高的开销和更低的资源利用率。