有人可以概述各种Hadoop发行版之间的各种差异:
使用Apache Hadoop发行版作为基线。
在标准的Apache Hadoop发行版上使用其中一个发行版是否正当理由?
答案 0 :(得分:14)
免责声明:我今年夏天在Cloudera实习(但我的一些好朋友都在Yahoo!: - ))
Yahoo发行版是Hadoop 20的一个版本,它们在其集群的某个子集上运行(运行?)。它包括一组用于稳定性,错误修复等的补丁。它是一个源代码版本;它没有管理员友好的功能,如rpm或debian包等。
Cloudera发行包是rpms和debs(源也可用)。这意味着您可以通过标准方法等获得更新。它还包括稳定性和错误修复补丁。它一直被维护(不是说雅虎不是 - 我想人们可以继续使用github并检查他们上次更新它的时间)。它还包装Pig和Hive。
Cloudera对Hadoop 20的分布处于测试阶段,18被认为是稳定的(Cloudera blog上的更多内容)。 18版还包括Hive和Pig的包装;对于20,你必须自己构建它们(虽然存在补丁,但还没有正式版本的Pig或Hive支持20)。 Cloudera和雅虎版本20之间可能存在重大差异;两者都提供清单,所以你可以检查。 Cloudera发行版的最新文档位于http://archive.cloudera.com
雅虎不为其发行提供支持;他们将修补后的版本作为服务提供给社区,因此感兴趣的人可以构建Yahoo内部运行的内容。考虑到Yahoo集群的规模,这是一个重要的贡献,特别是如果您不是一直关注JIRA的Hadoop开发人员。 Cloudera支持他们的商业发行,并通过Hadoop邮件列表提供一些社区支持,并针对发行版特定问题,在他们的GetSatisfaction页面上提供。
两者都与香草Apache发行版完全不同,因为它们在发行版之间进行了修补(20版的cloudera版本有60多个补丁!)。
答案 1 :(得分:4)
雅虎已停止发布自己的发行版并专注于Apache Hadoop。
http://www.cloudera.com/blog/2011/02/some-news-related-to-the-apache-hadoop-project/
最近,HortonWorks(www.hortonworks.com)从雅虎分拆出来。现在,HortonWorks也将提供与雅虎不同的支持。
http://www.hortonworks.com/about-us/our-manifesto/
Cloudera与HortonWorks一样
http://www.cloudera.com/products-services/
主要区别在于HortonWorks希望使Apache发行版稳定,易于安装等。虽然,Cloudera拥有自己的基于Apache Hadoop的发行版CDH *。
答案 2 :(得分:1)
选择Hadoop发行版有不同的原因,例如Cloudera,Hortonworks或MapR,而不是Apache Hadoop。两大优势是工具支持和商业支持。在收集和集成所有Hadoop框架(例如Pig,Hive等)时,你也会遇到很多麻烦。
看看InfoQ上的文章。它解释了Apache Hadoop,Hadoop发行版和大数据套件之间的差异,以及何时使用哪一个:
http://www.infoq.com/articles/BigDataPlatform
致以最诚挚的问候,
KaiWähner(@KaiWaehner,www.kai-waehner.de / blog)
答案 3 :(得分:0)
SquareCog几乎所有点都是正确的,除了:Yahoo!分发是在Yahoo!的所有生产集群上运行的,而不是它们的子集。这总计超过25,000台机器。雅虎!分销已经进行了广泛的端到端测试,以确保可靠,一致的操作。另一个分布在应用补丁方面更为自由,因此可能有更多功能,但尚未经过广泛测试。