Hadoop分布差异

时间:2009-09-11 18:34:00

标签: java hadoop mapreduce

有人可以概述各种Hadoop发行版之间的各种差异:

使用Apache Hadoop发行版作为基线。

在标准的Apache Hadoop发行版上使用其中一个发行版是否正当理由

4 个答案:

答案 0 :(得分:14)

免责声明:我今年夏天在Cloudera实习(但我的一些好朋友都在Yahoo!: - ))

Yahoo发行版是Hadoop 20的一个版本,它们在其集群的某个子集上运行(运行?)。它包括一组用于稳定性,错误修复等的补丁。它是一个源代码版本;它没有管理员友好的功能,如rpm或debian包等。

Cloudera发行包是rpms和debs(源也可用)。这意味着您可以通过标准方法等获得更新。它还包括稳定性和错误修复补丁。它一直被维护(不是说雅虎不是 - 我想人们可以继续使用github并检查他们上次更新它的时间)。它还包装Pig和Hive。

Cloudera对Hadoop 20的分布处于测试阶段,18被认为是稳定的(Cloudera blog上的更多内容)。 18版还包括Hive和Pig的包装;对于20,你必须自己构建它们(虽然存在补丁,但还没有正式版本的Pig或Hive支持20)。 Cloudera和雅虎版本20之间可能存在重大差异;两者都提供清单,所以你可以检查。 Cloudera发行版的最新文档位于http://archive.cloudera.com

雅虎不为其发行提供支持;他们将修补后的版本作为服务提供给社区,因此感兴趣的人可以构建Yahoo内部运行的内容。考虑到Yahoo集群的规模,这是一个重要的贡献,特别是如果您不是一直关注JIRA的Hadoop开发人员。 Cloudera支持他们的商业发行,并通过Hadoop邮件列表提供一些社区支持,并针对发行版特定问题,在他们的GetSatisfaction页面上提供。

两者都与香草Apache发行版完全不同,因为它们在发行版之间进行了修补(20版的cloudera版本有60多个补丁!)。

答案 1 :(得分:4)

雅虎已停止发布自己的发行版并专注于Apache Hadoop。

http://developer.yahoo.com/blogs/hadoop/posts/2011/01/announcement-yahoo-focusing-on-apache-hadoop-discontinuing-the-yahoo-distribution-of-hadoop/

http://www.cloudera.com/blog/2011/02/some-news-related-to-the-apache-hadoop-project/

最近,HortonWorks(www.hortonworks.com)从雅虎分拆出来。现在,HortonWorks也将提供与雅虎不同的支持。

http://www.hortonworks.com/about-us/our-manifesto/

Cloudera与HortonWorks一样

http://www.cloudera.com/products-services/

主要区别在于HortonWorks希望使Apache发行版稳定,易于安装等。虽然,Cloudera拥有自己的基于Apache Hadoop的发行版CDH *。

答案 2 :(得分:1)

选择Hadoop发行版有不同的原因,例如Cloudera,Hortonworks或MapR,而不是Apache Hadoop。两大优势是工具支持和商业支持。在收集和集成所有Hadoop框架(例如Pig,Hive等)时,你也会遇到很多麻烦。

看看InfoQ上的文章。它解释了Apache Hadoop,Hadoop发行版和大数据套件之间的差异,以及何时使用哪一个:

http://www.infoq.com/articles/BigDataPlatform

致以最诚挚的问候,

KaiWähner(@KaiWaehner,www.kai-waehner.de / blog)

答案 3 :(得分:0)

SquareCog几乎所有点都是正确的,除了:Yahoo!分发是在Yahoo!的所有生产集群上运行的,而不是它们的子集。这总计超过25,000台机器。雅虎!分销已经进行了广泛的端到端测试,以确保可靠,一致的操作。另一个分布在应用补丁方面更为自由,因此可能有更多功能,但尚未经过广泛测试。