我有两张表A和表B,分别是100GB和35GB。这两个表都在同一列上紧凑索引,即prodID。
我在这里遇到一个问题,我在下面的查询中得到相同或不带索引的响应时间。处理查询需要30分钟。
从TableA中选择a。* a.prodID = b.prodID上的内连接TableB b。
我有19个节点群集设置。如果我在这里遗漏任何配置或做错了什么,请你告诉我。
此致 Prabu
答案 0 :(得分:0)
我认为你应该尝试将大表,即表A放在最后,或者流表A以提高性能。您可以尝试以下查询来流表。
select /*+STREAMTABLE(a)*/ a.* from TableA a inner join TableB b on a.prodID=b.prodID;
有关详细信息,请参阅Tips using joins in hive。