POC:独立集群上的Cloudera Impala + HDFS + HBase

时间:2014-10-29 15:52:45

标签: hbase hdfs cloudera impala

我正在处理大数据系统架构。我知道Impala可以对存储在HDFS / HBase集群中的数据执行查询。

但是如果我有一个HDFS集群和另一个我保留HBase数据的集群怎么办? Impala能否执行合并来自两个集群的数据的查询?

2 个答案:

答案 0 :(得分:0)

我认为您还需要在Hbase群集上安装Impala。在两个集群之间加入数据可能不是一个好主意,因为您将遇到延迟问题。

答案 1 :(得分:0)

首先HBase将其数据存储在HDFS中。所以我相信你的HBase集群上有HDFS。

当impala正在向HDFS读取/写入数据时,它直接访问OS级别的块。这就是为什么黑斑羚在这方面如此之快。当impala读取HBase数据时,它正在成为使用其api的HBase客户端,而不是直接从磁盘读取HBase数据。

因此,HBase不必与Impala安装在同一个集群上。但是,群集需要能够相互访问。