应用错误收集

Hadoop由许多组件组成，这些组件是Apache Hadoop项目的每个子项目。其中两个主要是Hadoop Distributed File System (HDFS)和MapReduce framework。

这个想法是你可以将许多现成的计算机联网在一起来创建一个集群。 HDFS在群集上运行。在向集群添加数据时，它会分成大块/块（通常为64MB）并分布在集群周围。 HDFS允许复制数据以允许从硬件故障中恢复。它几乎可以预期硬件故障，因为它可以与标准硬件配合使用。 HDFS基于谷歌有关其分布式文件系统GFS的文章。

Hadoop MapReduce框架运行存储在HDFS上的数据。 MapReduce“工作”旨在以高度并行的方式提供基于键/值的处理能力。由于数据是通过集群分布的，因此MapReduce作业可以拆分为对存储在集群上的数据运行许多并行处理。 MapReduce的Map部分仅运行在他们可以看到的数据上，即运行在其上的特定机器上的数据块。 Reduce汇集了地图的输出。

结果是一个提供高度并行的批处理功能的系统。系统可以很好地扩展，因为您只需添加更多硬件来增加其存储容量或减少MapReduce作业运行所需的时间。

一些链接：

有人可以给初学者一个关于Hadoop如何工作的高级简单解释吗？

1 个答案: