Hive中的Datawarehouse

时间:2013-07-10 18:29:00

标签: hive data-warehouse

我需要在Hive中创建数据仓库并使用HBase来提供实时访问 所以我想知道同样的架构是什么 我可以先将数据转储到HBase上并将其作为Rest Service访问并在Hive中创建外部表并在其上运行hive查询吗? 是否会分发Hive,即我需要在我的集群的所有节点上安装Hive,否则它将是中心

1 个答案:

答案 0 :(得分:0)

回答你的问题:

Hive将被分发。

为了获得最佳性能,我会考虑在群集的每个节点上安装Hive。 Hive将HiveQL转换为MapReduce作业 - 将在数据所在的位置执行作业。如果那是不可能的,那么数据将不得不转移到作业中。为了响应时间,你需要在每个节点上使用Hive。

要创建引用HBase中存储数据的Hive表,可以查看Hive - HBase Integration wiki。这是一个简单的例子:

CREATE TABLE hbase_table_1(key int, value string) 
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:val")
TBLPROPERTIES ("hbase.table.name" = "xyz");