我开始学习hadoop。我能够对它有所了解但是当我读到关于Hive,Pig和Apache的其他工具时,我感到困惑。因此,有人可以只概述一下Apache(Hive,Pig,Zookeeper等)的hadoop和工具,我想知道它们在处理大数据时的使用方式和位置。
答案 0 :(得分:4)
Apache Hadoop或Hadoop 是一个开源框架,用于在基本机器集群上存储和处理大规模数据集。 Hadoop是由自由软件社区构建和使用的领先Apache项目。
Hadoop框架包含以下模块:
Hadoop Common - 包含Hadoop模块所需的库和其他服务。
HDFS或Hadoop分布式文件系统 - 一种分布式文件系统,可在功能较弱的计算机上存储数据,为所有群集提供高带宽。 HDFS是一个文件系统,可以通过在主机群集中扩展来存储非常大的数据集。它具有特定的设计和性能特征;特别是,它针对吞吐量而非延迟进行了优化,并通过复制而非冗余实现了高可用性。
Hadoop YARN - 在群集上负责资源管理计算的平台,然后将其用于用户应用程序。
Hadoop MapReduce - 用于处理大规模数据的编程模型。 MapReduce是一种数据处理范例,它规范了数据如何从其两个阶段(称为map和reduce)输入和输出,然后将其应用于任意大的数据集。 MapReduce与HDFS紧密集成,确保MapReduce任务尽可能直接在保存所需数据的HDFS节点上运行。
这主要是Hadoop框架的呈现方式。但除了我上面引用的内容之外,Hadoop平台现在也由许多相关项目组成 - Pig,Hive,HBase,Spark,Mahout。
Apache Hive 是一个建立在Hadoop之上的数据仓库基础架构,用于提供数据汇总,查询和分析。
Apache Pig 是一个高级平台,用于创建与Hadoop一起使用的MapReduce程序,其语言为 Pig Latin
Apache ZooKeeper 是Apache Software Foundation的一个软件项目,为大型分布式系统提供开源分布式配置服务,同步服务和命名注册表。
Apache Mahout 是可扩展机器学习算法的框架,主要侧重于协同过滤,聚类和分类领域。它使用Hadoop平台(但不是必需的)。
列表很长......