是否可以设置Hadoop以便与群集中的其他应用程序很好地配合?
我熟悉Torque + Maui资源调度程序,并使用HadoopOnDemand来配置临时Hadoop集群。但是如果很多人想要使用Hadoop,这会变得非常麻烦:每个人都有同样的头痛,即设置和拆除自己的迷你hadoop集群,在自己的HDFS上复制数据等等。
如果我们可以拥有一个人们共享的Hadoop运行的永久实例,并且HDFS总是在运行,那将会更酷。这将要求Hadoop智能地将工作分配给不忙于其他应用程序的节点(比如说R),而不是在排队作业时贪婪。
这可能吗?
答案 0 :(得分:0)
这不是公平的调度程序吗?
http://hadoop.apache.org/mapreduce/docs/r0.21.0/fair_scheduler.html
我们使用它来运行一个包含30个用户的永久性hadoop集群。您可以让它抢占重新分配到新池的任务,也可以为每个池设置单独的优先级。