多核机器上的Hadoop和map-reduce

时间:2012-09-29 23:41:58

标签: hadoop multicore

我已经阅读了很多关于Hadoop和Map-Reduce在机器集群上运行的内容。有人知道Apache发行版是否可以在具有多个内核的SMP上运行。特别是,可以在同一台机器上运行多个Map-Reduce进程。调度程序将负责将它们分布在多个核心上。谢谢。 - KG

3 个答案:

答案 0 :(得分:8)

是。每个机器中有多个映射和减少插槽由RAM和CPU确定(默认情况下每个JVM实例需要1GB,因此具有16个内核的8GB机器应该仍然有7个任务插槽)

来自hadoop wiki

  

使用配置旋钮:mapred.tasktracker.map.tasks.maximum和   mapred.tasktracker.reduce.tasks.maximum控制数量   在TaskTracker上同时生成map / reduce。默认情况下,它   设置为2,因此最多可以看到2个地图,而在a处减少2个地图   在TaskTracker上给出实例。

     

您可以在每个任务跟踪的基础上设置这些以准确反映   你的硬件(即在更强大的任务追踪器上设置更高的数量)   等)。

答案 1 :(得分:0)

您可以将这些轻量级MapReduce框架用于多核计算机。

例如

LeoTask:用于多核计算机的轻量级,高效且可靠的mapreduce框架

https://github.com/mleoking/LeoTask

答案 2 :(得分:0)

对于Apache Hadoop 2.7.3,我的经验是,启用YARN还将支持多核支持。以下是在单个节点上启用YARN的简单指南:

https://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-common/SingleCluster.html#YARN_on_a_Single_Node

默认配置似乎运行良好。如果你想调整你的核心用法,那么也许可以看看设置' yarn.scheduler.minimum-allocation-vcores'和' yarn.scheduler.maximum-allocation-vcores'在yarn-site.xml(https://hadoop.apache.org/docs/r2.7.1/hadoop-yarn/hadoop-yarn-common/yarn-default.xml

另外,请参阅此处了解有关如何配置具有多核支持的简单Hadoop沙箱的说明:https://bitbucket.org/aperezrathke/hadoop-aee