hdfs map-reduce如何在完全分布式模式下工作

时间:2013-02-08 14:09:52

标签: java hadoop mapreduce hdfs

我实际上对hdfs map-reduce如何在完全分布式模式下工作有点困惑。

假设我正在运行一个字数统计程序。我只是给'hdfs-site'& '核心现场'。

然后实际上是如何进行的?

这个程序是分布在每个节点上还是什么?

1 个答案:

答案 0 :(得分:1)

是的,您的程序已分发。但是说它分布到每个节点都是错误的。更重要的是,hadoop检查你正在使用的数据,将这些数据拆分成更小的部分(在配置的某些约束下)然后将你的代码移动到hdfs中的节点,这些部分是(我假设你有在节点上运行的datanode和tasktracker)。首先,地图部分在这些节点上进行,这会产生一些数据。此数据存储在节点上,在映射完成期间,作业的第二部分从节点开始,即reduce-phase。

reducers在某些节点上启动(同样,你可以配置它们中的多少个)并从映射器中获取数据,聚合它们并将输出发送到hdfs。