使用Impala读取Cloudera文档,如下所述加入针对HBase较小表的Hive表,然后在没有大数据设备(如OBDA)和可变的大型HBase维度表的情况下:
如果您有连接查询,对大事实执行聚合操作 考虑表格并将结果与小维度表相结合 将Impala用于事实表,将HBase用于维度表。 (因为Impala在这种情况下对HBase表进行了全面扫描, 而不是基于连接列进行单行HBase查找, 只使用这种技术,其中HBase表足够小 进行全表扫描不会导致性能瓶颈 查询。)
有没有办法让这个单键以另一种方式查找?
此外,我在KUDU和HDFS上注意到以下内容,可能是HIVE。有人有经验吗?很想知道。我会在适当的时候自己尝试一下,但是在非分区的快速入门上安装包裹并不是那么容易......
在单个应用程序(或查询)中混合和匹配存储管理器
• SELECT COUNT(*) FROM my_fact_table_on_hdfs JOIN
my_dim_table_in_kudu ON ...
答案 0 :(得分:-1)
谨慎一点,为了避免在只需要lkp时在HBASE中对大尺寸进行扫描,可以选择与KUDU进行尺寸关联。
我正在收回后一点,我确信如果它是等值连接,JOIN不会导致HBASE扫描。
也就是说,带有MPP的IMPALA允许采用没有MR的MPP方法和使用事实表加入维度。 OBDA的优势现在不那么明显了。伊莫。