我理解HDFS和Map Reduce的概念以及如何将处理逻辑移至数据以提高效率。我甚至能够在我的基本Hadoop集群上运行几个map reduce工作。围绕这些概念有许多不同的技术,如YARN,HUE,OOZIE,所有这些技术似乎都做同样的事情(至少从非常高的层次),即作业的操作可视性和CRUD能力(可以是map-reduce或者是其他东西)。
我是否正确地做出这个假设,或者它们之间是否存在更为根本的区别?
由于 凯
答案 0 :(得分:6)
YARN - Map Reduce是您必须在其中实现数据处理逻辑的API。编译代码后,您必须使用hadoop jar
命令提交作业。 YARN是一个框架,它将跟踪资源,在集群上提交作业,执行作业,显示/记录进度。
OOZIE - 采用数据集成示例。您可能必须从一个数据库获取数据集,从其他数据库获取其他数据集,然后您要加入,处理数据并将其重新加载到缓存或第三个数据库中。它涉及2个sqoop作业从数据库中提取数据,hive / map reduce作业加入和处理数据,然后进入缓存/数据库。所有这些工作都相互依赖,例如:我们应该只在从源数据库中提取数据后处理数据。因此,我们需要创建一个工作流来执行完整的数据集成过程。 OOZIE可以促进这一点。它是基于地图缩减的工作流程工具。它自己的工作流程将作为一个或多个地图减少工作来执行。
HUE:Hadoop中有许多工具 - HDFS(文件系统),Sqoop,Hive / pig来处理数据,Impala,HBase等等。要执行POC,连接到群集可能会很繁琐。它还需要一些Linux技能。为了克服这些挑战,所有Hadoop生态系统工具都在一个伞下整合 - 称为Hue。