应用错误收集

蜂巢指数表现

时间：2016-01-25 12:11:27

标签： hive

我有两张表A和表B，分别是100GB和35GB。这两个表都在同一列上紧凑索引，即prodID。

我在这里遇到一个问题，我在下面的查询中得到相同或不带索引的响应时间。处理查询需要30分钟。

从TableA中选择a。* a.prodID = b.prodID上的内连接TableB b。

我有19个节点群集设置。如果我在这里遗漏任何配置或做错了什么，请你告诉我。

此致 Prabu

1 个答案:

答案 0 :(得分：0)

我认为你应该尝试将大表，即表A放在最后，或者流表A以提高性能。您可以尝试以下查询来流表。

select /*+STREAMTABLE(a)*/ a.* from TableA a inner join TableB b on a.prodID=b.prodID;

有关详细信息，请参阅Tips using joins in hive。