HIVE:优化非分区表到分区表的连接

时间:2019-07-10 22:57:04

标签: hive

我正在尝试将某些客户应用程序(约56万条记录)连接到另一个服务表(约46亿条记录),该表包含多个客户快照。请记住,后者是按维修日期划分的。

目标是从申请之日起加入服务数据,申请日期等于每个客户的服务日期。

我完成连接的方式依赖于加载服务表的所有分区,但是显然这是一个非常昂贵的操作,并且导致我的查询要花很长时间才能运行。因此,感谢您对优化此联接的任何帮助。

下面是我尝试过的代码:

SELECT * FROM
    applications apps
JOIN
    -- partitioned table
    (SELECT * FROM servicing WHERE serv_date > 0) serv
ON apps.customer_id = serv.customer_id
AND apps.app_date = serv.serv_date

0 个答案:

没有答案