Question

使用Impala读取Cloudera文档，如下所述加入针对HBase较小表的Hive表，然后在没有大数据设备（如OBDA）和可变的大型HBase维度表的情况下：

如果您有连接查询，对大事实执行聚合操作考虑表格并将结果与小维度表相结合将Impala用于事实表，将HBase用于维度表。（因为Impala在这种情况下对HBase表进行了全面扫描，而不是基于连接列进行单行HBase查找，只使用这种技术，其中HBase表足够小进行全表扫描不会导致性能瓶颈查询。）

有没有办法让这个单键以另一种方式查找？

此外，我在KUDU和HDFS上注意到以下内容，可能是HIVE。有人有经验吗？很想知道。我会在适当的时候自己尝试一下，但是在非分区的快速入门上安装包裹并不是那么容易......

在单个应用程序（或查询）中混合和匹配存储管理器

• SELECT COUNT(*) FROM my_fact_table_on_hdfs JOIN
my_dim_table_in_kudu ON ...

Answer 1

谨慎一点，为了避免在只需要lkp时在HBASE中对大尺寸进行扫描，可以选择与KUDU进行尺寸关联。

我正在收回后一点，我确信如果它是等值连接，JOIN不会导致HBASE扫描。

也就是说，带有MPP的IMPALA允许采用没有MR的MPP方法和使用事实表加入维度。 OBDA的优势现在不那么明显了。伊莫。