应用错误收集

hdfs map-reduce如何在完全分布式模式下工作

时间：2013-02-08 14:09:52

标签： java hadoop mapreduce hdfs

我实际上对hdfs map-reduce如何在完全分布式模式下工作有点困惑。

假设我正在运行一个字数统计程序。我只是给'hdfs-site'＆amp; '核心现场'。

然后实际上是如何进行的？

这个程序是分布在每个节点上还是什么？

1 个答案:

答案 0 :(得分：1)

是的，您的程序已分发。但是说它分布到每个节点都是错误的。更重要的是，hadoop检查你正在使用的数据，将这些数据拆分成更小的部分（在配置的某些约束下）然后将你的代码移动到hdfs中的节点，这些部分是（我假设你有在节点上运行的datanode和tasktracker）。首先，地图部分在这些节点上进行，这会产生一些数据。此数据存储在节点上，在映射完成期间，作业的第二部分从节点开始，即reduce-phase。

reducers在某些节点上启动（同样，你可以配置它们中的多少个）并从映射器中获取数据，聚合它们并将输出发送到hdfs。