我应该在1.x,2.2和0.23中选择哪个hadoop版本

时间:2014-02-18 15:52:35

标签: hadoop hadoop2

您好我是Hadoop的新手,并且非常混淆版本名称,我应该在1.x(强大的支持和学习资源),2.2或0.23中使用哪一个。

我已经读过hadoop从v0.23(link1)完全转移到YARN。
但与此同时,它遍布整个网络的hadoop v2.0正在转移到YARN(link2),我可以在Hadoop 2.2中看到YARN配置文件。

  • 但是因为0.23似乎是我的最新版本,2.2也是 支持YARN? (参见链接1,它说hadoop将支持YARN v0.23)
  • 作为初学者,我应该选择1.x或2.x版本 学习视角的hadoop。
  • 其他技术是否适用于像猪,蜂巢等的hadoop 可以使用最新版本的hadoop?

感谢。

更新
谢谢你的回复。 我最终使用hadoop2.2,因为所有着名的教程和资源都已过时,但我找到了一本好的书来开始使用v2.2。

  

" Hadoop:The Definitive Guide,Third Edition"由汤姆怀特(Buy Here

支持hadoop v2.2。

源代码在github上发布https://github.com/tomwhite/hadoop-book

如github所述,本书的代码用

进行测试
This version of the code has been tested with:
 * Hadoop 1.2.1/0.22.0/0.23.x/2.2.0
 * Avro 1.5.4
 * Pig 0.9.1
 * Hive 0.8.0
 * HBase 0.90.4/0.94.15
 * ZooKeeper 3.4.2
 * Sqoop 1.4.0-incubating
 * MRUnit 0.8.0-incubating

希望它有所帮助...... !!!

2 个答案:

答案 0 :(得分:3)

有一些活跃的发布系列。 1.x版本系列是0.20的延续 发布系列。在0.23释放后的几周,以前称为0.20.205的0.20分支重新编号为1.0。 0.20.205和1.0之间几乎没有功能差异。这只是一个重新编号。

0.23包括几个主要的新功能,包括一个名为MapReduce 2的新MapReduce运行时,它在一个名为YARN(Yet Another Resource Negotiator)的新系统上实现,这是一个用于运行分布式应用程序的通用资源管理系统。同样,2.x版本是0.23版本系列的延续。所以2.2也支持YARN。

根据Hadoop 2.2 release note

  • 1.2.X - 当前稳定版本,1.2版本

  • 2.2.X - 当前稳定的2.x版本

  • 0.23.X - 类似于2.X.X但缺少NN HA。

我建议您从刚开始学习开始Cloudera发布。 CDH 4.5包含您正在寻找的YARN功能。您还可以尝试HortonWorks分发。与这些供应商合作的好处是,您无需担心Hive,Pig等哪个版本的组件可以与Hadoop安装一起使用。

答案 1 :(得分:1)

我建议你从hadoop-2.2.0开始,它提供了很好的知识。行业更喜欢YARN本身和生产2.x只存在