Pig Hive Hbase如何彼此不同

时间:2015-01-05 11:28:46

标签: hadoop hive hbase apache-pig

我是hadoop技术的新手。我试图找出使用这些Pig Hive和Hbase的数据类型(结构化,非结构化,semo结构化)?

哪种工具在哪种情况下有效使用?

1 个答案:

答案 0 :(得分:1)

您应该首先阅读最基本的Hadoop文档:http://hadoop.apache.org/#What+Is+Apache+Hadoop%3F

然后,您可以在每个项目网站上找到最佳解释:


Apache Pig是一个分析大型数据集的平台,该数据集由用于表达数据分析程序的高级语言和用于评估这些程序的基础结构组成。 Pig程序的显着特性是它们的结构可以实现大量的并行化,从而使它们能够处理非常大的数据集。

http://pig.apache.org/


Apache Hive™数据仓库软件有助于查询和管理驻留在分布式存储中的大型数据集。 Hive提供了一种机制,用于将结构投影到此数据上,并使用类似SQL的语言HiveQL查询数据。同时,这种语言还允许传统的map / reduce程序员在HiveQL中表达这种逻辑时不方便或效率低下时插入自定义映射器和缩减器。

http://hive.apache.org/


当您需要对大数据进行随机,实时读/写访问时,请使用Apache HBase。该项目的目标是托管非常大的表 - 数十亿行X百万列 - 在商品硬件集群上。 Apache HBase是一个开源的,分布式的,版本化的非关系数据库,模仿Google的Bigtable:Chang等人的结构化数据分布式存储系统。正如Bigtable利用Google文件系统提供的分布式数据存储一样,Apache HBase在Hadoop和HDFS之上提供类似Bigtable的功能。

http://hbase.apache.org/