Hive Hbase JOIN性能& KUDU

时间:2017-06-06 12:53:29

标签: join hive hbase apache-kudu

使用Impala读取Cloudera文档,如下所述加入针对HBase较小表的Hive表,然后在没有大数据设备(如OBDA)和可变的大型HBase维度表的情况下:

  

如果您有连接查询,对大事实执行聚合操作   考虑表格并将结果与​​小维度表相结合   将Impala用于事实表,将HBase用于维度表。   (因为Impala在这种情况下对HBase表进行了全面扫描,   而不是基于连接列进行单行HBase查找,   只使用这种技术,其中HBase表足够小   进行全表扫描不会导致性能瓶颈   查询。)

有没有办法让这个单键以另一种方式查找?

此外,我在KUDU和HDFS上注意到以下内容,可能是HIVE。有人有经验吗?很想知道。我会在适当的时候自己尝试一下,但是在非分区的快速入门上安装包裹并不是那么容易......

在单个应用程序(或查询)中混合和匹配存储管理器

• SELECT COUNT(*) FROM my_fact_table_on_hdfs JOIN
my_dim_table_in_kudu ON ...

1 个答案:

答案 0 :(得分:-1)

谨慎一点,为了避免在只需要lkp时在HBASE中对大尺寸进行扫描,可以选择与KUDU进行尺寸关联。

我正在收回后一点,我确信如果它是等值连接,JOIN不会导致HBASE扫描。

也就是说,带有MPP的IMPALA允许采用没有MR的MPP方法和使用事实表加入维度。 OBDA的优势现在不那么明显了。伊莫。