我想知道mapreduce 1和mapreduce2之间的细节差异。 包含YARN实际上添加到Hadoop中的是什么? 我是一个想学习Apache Hadoop的初学者。 任何人都可以建议从哪里开始。 还有什么是Hadoop的集群设置。 谢谢你的帮助。
答案 0 :(得分:6)
使用Hadoop2 Apache将map / reduce进程的管理与集群的资源管理(YARN =新资源管理器)分开。分离允许一个专业化的两件事,即YARN是比MR1中更好的资源管理者。它还具有多功能性 - 资源管理器可以支持其他范例而不仅仅是map / reduce,而且我们确实看到了YARN可以管理的大量内容,如Tez,Hama,Storm和甚至HBase
您可以查看HortonWorks YARN page作为了解Yarn是什么以及它做什么的良好起点
答案 1 :(得分:4)
MR1架构,群集由名为JobTracker的服务管理。 TaskTracker服务存在于每个节点上,并代表作业启动任务。 JobTracker将提供有关已完成工作的信息。
MR2架构,旧的MR1框架被重写为在 YARN 之上的已提交应用程序中运行。这个应用程序被命名为MR2或MapReduce版本2.它是下面熟悉的MapReduce执行,除了每个作业现在通过自己的ApplicationMaster控制自己的命运负责执行流程(例如调度任务,处理推测执行和失败等) 。)
参考: - http://blog.cloudera.com/blog/2013/11/migrating-to-mapreduce-2-on-yarn-for-operators/