有可能将mapR与纯apache hadoop结合起来吗?

时间:2013-06-17 10:10:22

标签: hadoop mapr

我是hadoop的新手。

我听说mapR是安装hadoop HDFS而不是融合的更好方法。

但大多数相关文章只是描述了mapR hadoop而不是纯粹的apache hadoop。

任何人都有使用mapR安装纯apache hadoop的经验吗?

提前致谢。

2 个答案:

答案 0 :(得分:1)

MapR不仅仅是一种挂载HDFS的方法。

MapR包括Hadoop和许多Apache生态系统组件以及许多其他非Apache组件,例如Cascading。它还包括LucidWorks,其中包括Solr。

MapR还包括称为MaprFS的HDFS重新实现。 MaprFS具有更高的性能,具有读写语义,允许在写入期间进行读取,支持事务正确的镜像和快照,没有名称节点,没有联邦的规模,本质上是HA而没有HA NameNode的所有混乱且可访问通过分布式NFS系统。

哦,除了通过NFS进行POSIX-ish访问之外,MaprFS还支持HBase API以及HDFS API。

MapR中的map-reduce层已经部分重写,以利用文件系统的极高性能。这就是MapR去年秋天打破分钟记录的方式。

因此,除了命名之外,MapR还包括您可以与任何其他发行版一起获得的所有开源软件。 “Pure Hadoop”几乎没用。你需要猪和/或蜂巢。您可能应该考虑级联/烫伤。你可能需要Mahout。您肯定需要将您的系统连接到旧数据源和报告系统,而NFS很容易。

请记住,通过NFS或Fuze安装HDFS无法满足您的需求。 HDFS没有合适的语义来通过NFS或普通文件系统API进行访问。它只是有太多的妥协。

另一方面,使用MapR,您甚至可以通过NFS在群集文件系统之上运行MySQL或Postgress等数据库。

MapR有三个版本。

M3是免费的,为您提供所有性能和可扩展性,但限制您使用单个NFS服务器,并且没有镜像,快照,卷位置或HBase兼容API(当然,您可以运行HBase)。 HA在M3中也会降级,因此需要一个小时才能对某些功能进行故障转移。

M5在免费试用期后花钱,并为您提供快照,镜像,强制某些数据到不同拓扑和无限制NFS服务器的能力。

M7也需要花钱,并将HBase API添加到M5可以做的所有事情中。

有关详细信息,请访问mapr.com。

答案 1 :(得分:1)

总结特德所说的话,

你真的不是“用mapR安装纯apache hadoop吗?”。不应将Hadoop与HDFS混淆。虽然它们在会话期间往往可以互换,但HDFS明确指的是实际的分布式文件系统(因此是HDFS中的DFS)。 HDFS必须使用特定的hadoop命令进行交互,即“hadoop dfs ls /”将列出hdfs的根内容。

MapR超越了hadoop提供的默认值。一,您可以使用更高效的maprfs(重写hdfs)与文件系统进行交互。您可以做的另一件事实际上是NFS挂载HDFS / MapRFS,以便您可以本机操作文件系统而无需执行任何特殊操作。它被视为与任何其他NFS文件系统一样,除非在这种情况下,它分布在您的集群中。