Hadoop生态系统部署步骤

时间:2012-05-11 07:13:22

标签: apache deployment configuration hadoop mapreduce

我正在尝试在一个集群中设置Apache Hadoop堆栈的所有项目。设置apache hadoop生态系统框架的顺序是什么。 例如:Hadoop,HBase,...... 如果您使用某些特定步骤进行测试,您可以了解部署期间可能遇到的问题类型。部署的主要框架(Hadoop,HBase,Pig,Hive,HCatalog,Mahout,Giraph,ZooKeeper,Oozie,avro,sqoop,mrunit,crunch,如果我错过了请添加)

3 个答案:

答案 0 :(得分:1)

由于并非所有列出的产品都依赖,因此有不同的订单。
简而言之:
1. Hadoop(HDFS,MapReduce)
2.猪,蜂巢,sqoop,Oozie
2. Zookeeper(HBase需要)
3. HBase

我不是100%肯定麻省,MRUnit依赖,但我认为Hadoop只在需要的时候。
Avro并不直接依赖于hadoop - 它是序列化库。

答案 1 :(得分:1)

我想说,部署是根据主要要求完成的,根据要求,您将选择需要的其他组件。我认为Hadoop设置如下: 1. Hadoop核心(Hadoop Common + HDFS + MapReduce - >一个单一的大组件) 2. Hadoop组件(取决于选择)

例如,您只设置1)您仍然可以在将数据复制到HDFS时运行MapReduce作业。我希望你明白我的观点。

现在举例来说,您可能希望使用Hive和Pig进行数据分析工作,为此您可以设置Hive和Pig的顶部。

同时您决定将此Hadoop集群与SQL Server / SQL Azure连接,以便将数据从SQL Server / SQL Azure导入HDFS。为此,您可以设置HiveODBC和Sqoop,它将为您提供从HDFS导入/导出数据到SQL Server / Azure的功能。 HiveODBC和Sqoop为您提供了将您的内部Excel和Power Pivot直接连接到HDFS并从那里获取蜂巢表的功能。

如果你想设置一个位于HDFS顶部的无SQL数据库,你肯定可以选择HBASE,它将位于HDFS之上,你可以在其上运行MapReduce作业。

依赖于您的要求,您可以在群集/群集中创建所需的列表和设置。只要您有基本的Hadoop核心(见上文),就没有硬性和快速的规则,任何核心设置都可以完成其余的工作。

答案 2 :(得分:0)

您可能会感兴趣的两个有趣的开源项目可能会帮助您为您提供指导和想法:

看看他们做什么/用来部署你提到的项目然后问自己:“你真的需要自己/不同地做吗?” ; - )