Question

我已经采用云计算并在Mapreduce中创建了一个用于天气分析的项目。为此，我在笔记本电脑中安装了以下软件。

我选择了Redhat Linux并分配了2 GB作为主内存。我使用沙盒网站的hadoop图像并使用virtualbox加载它。如果我的理解是正确的，那么从我的系统分配2 GB，MapReduce作业在我的本地机器本身完成。我在这一点上是否正确？

我创建了MapReduce程序并在沙箱中运行它。它工作正常，我得到了所需的输出。

如果上述说法正确，为什么我只看到使用了一个减速机？

如果地图制作者来自沙箱，他们是否有像亚马逊的EMR这样的服务器？

Answer 1

我很抱歉，但我并没有完全明白你想要问的是什么。你的问题看起来像一个帖子的标题而不仅仅是一个问题。

Mappers和Reducers是MapReduce framework的组成部分。 Hortonworks只是提供自定义Hadoop发行版的供应商之一。这些不同风格的Hadoop之间存在一定的差异，但Mapper和Reducer创建的标准在任何地方都是相同的。

如果我的理解是正确的，那么从我的系统中分配2 GB MapReduce作业在我的本地机器上完成。我对么在这一点上？

首先推荐的内存为4GB。

是的，它将从运行virtualbox的机器中分配。当virtualbox在“这台”机器上运行时，你还能从哪里获得资源？分配的内存与MR作业运行的位置有什么关系？当您使用沙箱时，它们将在沙箱中运行。

对于我的工作，作业跟踪器显示使用了8个映射器减少使用一个减速器。因此，8个映射器基本上是8个分裂我的2 GB主内存用作处理器的映射器数据

8个映射器是Mapper代码的8个实例，它们处理了8个输入数据分割和NOT 8个内存分割或其他任何内容。

If the mappers are from sandbox, do they have servers like Amazon's EMR?

对我来说，这是一个完全的保镖。请改写一下。

Answer 2

当您想要读取数据并按原样处理而不做任何更改时，将使用身份映射器。