与Cloudera和Hortonworks相比,Hadoop发行版MapR有哪些缺点?

时间:2013-02-26 01:21:40

标签: hadoop hdfs cloudera mapr

Cloudera和Hortonworks使用HDFS,这是Apache Hadoop的基本概念之一。 MapR使用自己的概念/实现。您可以直接使用本机文件系统而不是HDFS。您可以在MapR网站上使用此方法找到许多优势。

我想知道这种方法的缺点是什么?

4 个答案:

答案 0 :(得分:5)

我会稍微定义MapR。它不使用HDFS,而是使用NFS接口提供自己的分布式文件系统。其中,HDFS也基于本地FS。
主要的不同之处在于HDFS不是Posix和其他设计选择。
1. MapR是HDFS不可变的。它可以被视为有利,特别是如果你需要它。
2. MapR时无法安装HDFS。您可以使用任何使用Linux FS的现有工具。

与posix无关: MapR具有较小的块大小而不是单点故障(NameNode)。 MapR具有多站点复制。

让我们看看黑暗的一面: a)具有可变数据(而不是不可变的HDFS)使系统更复杂。
b)不知道(至少对我来说)在大型集群上工作。 (我听说过几百个节点)。
c)从架构点(具有小块)我不确定如何实现良好的数据局部性。

答案 1 :(得分:0)

大卫,分钟记录由MapR在2013年1月30日的Google Cloud中的Google Compute Engine上设置。请访问我们的博客http://www.mapr.com/blog/hadoop-minutesort-record。记录在2103节点集群上设置,1.5 TB数据在59秒内排序。

另请参阅早期博客,关于MapR记录,MapR在54秒内对1 TB数据进行排序。 它设置在Google Cloud中Google Compute Engine上的1003节点群集上。该博客发布在http://www.mapr.com/blog/record-setting-hadoop-in-the-cloud

有关此主题的许多问题/答案,请参阅answers.mapr.com。

答案 2 :(得分:0)

直到一些公正的消息来源对Apache Hadoop与MapR的版本进行广泛的基准测试(在不同的工作负载下),我认为我们不能断然说一个比另一个更快。如果记录将决定您的意见,那么您现在应该使用Apache Hadoop来保存当前的terasort记录。详情herehere

答案 3 :(得分:0)

MapR和Hortonworks / Cloudera之间的主要缺点是MapRFS(文件系统)和MapR-DB(NOSQL数据库)是专有的(非开源)。如果MapR不再存在,则假定这些产品将不再开发和支持。

由于Hortonworks,Cloudera和其他Hadoop发行版使用/支持HDFS / HBase以及开源社区,因此不会开发和支持HDFS / HBase的风险较小。