我计划在EC2上使用Hadoop。由于我们必须按实例使用付费,因此拥有固定数量的实例并不比工作实际需要的数量多。
在我们的应用程序中,许多作业同时执行,我们始终不知道从站需求。是否可以使用最少的从站启动hadoop集群,然后根据需求管理可用性?
即。按需创建/销毁奴隶
子问题:hadoop集群可以同时管理多个作业吗?
由于
答案 0 :(得分:1)
hadoop中使用的默认调度程序是一个简单的FIFO调度程序,您可以查看使用FairScheduler,它为每个正在运行的作业分配一个集群的共享,并具有广泛的配置来控制这些共享。
就EC2而言 - 您可以轻松地启动一些节点,然后一旦您看到队列中的任务太多而群集中的所有插槽都被占用 - 添加更多节点。您只需启动一个实例并在其上启动一个将在jobtracker中注册的任务跟踪器。
但是,您必须拥有自己的系统来管理这些节点的启动和关闭。
答案 1 :(得分:0)
答案 2 :(得分:0)
只是想让您知道我们正在Apache Whirr做一些相关工作。我们正在追踪WHIRR-214的进展情况。投票或加入开发。 :)