蜂巢指数表现

时间:2016-01-25 12:11:27

标签: hive

我有两张表A和表B,分别是100GB和35GB。这两个表都在同一列上紧凑索引,即prodID。

我在这里遇到一个问题,我在下面的查询中得到相同或不带索引的响应时间。处理查询需要30分钟。

从TableA中选择a。* a.prodID = b.prodID上的内连接TableB b。

我有19个节点群集设置。如果我在这里遗漏任何配置或做错了什么,请你告诉我。

此致 Prabu

1 个答案:

答案 0 :(得分:0)

我认为你应该尝试将大表,即表A放在最后,或者流表A以提高性能。您可以尝试以下查询来流表。

select /*+STREAMTABLE(a)*/ a.* from TableA a inner join TableB b on a.prodID=b.prodID;

有关详细信息,请参阅Tips using joins in hive