应用错误收集

多核机器上的Hadoop和map-reduce

时间：2012-09-29 23:41:58

标签： hadoop multicore

我已经阅读了很多关于Hadoop和Map-Reduce在机器集群上运行的内容。有人知道Apache发行版是否可以在具有多个内核的SMP上运行。特别是，可以在同一台机器上运行多个Map-Reduce进程。调度程序将负责将它们分布在多个核心上。谢谢。 - KG

3 个答案:

答案 0 :(得分：8)

是。每个机器中有多个映射和减少插槽由RAM和CPU确定（默认情况下每个JVM实例需要1GB，因此具有16个内核的8GB机器应该仍然有7个任务插槽）

来自hadoop wiki

使用配置旋钮：mapred.tasktracker.map.tasks.maximum和   mapred.tasktracker.reduce.tasks.maximum控制数量   在TaskTracker上同时生成map / reduce。默认情况下，它   设置为2，因此最多可以看到2个地图，而在a处减少2个地图   在TaskTracker上给出实例。

您可以在每个任务跟踪的基础上设置这些以准确反映   你的硬件（即在更强大的任务追踪器上设置更高的数量）   等）。

答案 1 :(得分：0)

您可以将这些轻量级MapReduce框架用于多核计算机。

例如

LeoTask：用于多核计算机的轻量级，高效且可靠的mapreduce框架

https://github.com/mleoking/LeoTask

答案 2 :(得分：0)

对于Apache Hadoop 2.7.3，我的经验是，启用YARN还将支持多核支持。以下是在单个节点上启用YARN的简单指南：

https://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-common/SingleCluster.html#YARN_on_a_Single_Node

默认配置似乎运行良好。如果你想调整你的核心用法，那么也许可以看看设置＆＃39; yarn.scheduler.minimum-allocation-vcores＆＃39;和＆＃39; yarn.scheduler.maximum-allocation-vcores＆＃39;在yarn-site.xml（https://hadoop.apache.org/docs/r2.7.1/hadoop-yarn/hadoop-yarn-common/yarn-default.xml）

中

另外，请参阅此处了解有关如何配置具有多核支持的简单Hadoop沙箱的说明：https://bitbucket.org/aperezrathke/hadoop-aee