需要大量时间的生产Hadoop查询

时间:2019-04-09 14:39:59

标签: sql hadoop hive query-optimization

当前状态

我们有一个查询会运行2个小时以上。在检查进度时,查询在与表T5的 join 期间以及查询的最后阶段花费了大量时间。有什么方法可以简化对此查询的处理?我无法使用聚合函数代替rank(),因为使用的 orderby 有点复杂。

我们已经尝试过的东西

我们已经在 select 子句中将子查询转换为 case 语句,并帮助减少了执行时间,但这并不重要。我们简化了T3,T4和T6的相关查询。

SELECT * FROM 
        (SELECT T2.f1, T2.f2 .... T5.f19, T5.f20, 
                   case when T1.trxn_id is null then T2.crt_ts
                        when T1.trxn_id is not null and T5.acct_trxn_id is not null and T2.crt_ts >= T5.crt_ts then T2.crt_ts
                        when T1.trxn_id is not null and T5.acct_trxn_id is not null and T2.crt_ts < T5.crt_ts then T5.crt_ts
                    end as crt_ts , 
                    row_number() over ( partition by T2.w_trxn_id,
                                            if(T1.trxn_id is null, 'NULL', T1.trxn_id)
                                            order by T2.business_effective_ts desc,
                                            case when T1.trxn_id is null then T2.crt_ts
                                            when T1.trxn_id is not null and T5.acct_trxn_id is not null and T2.crt_ts >= T5.crt_ts then T2.crt_ts
                                            when T1.trxn_id is not null and T5.acct_trxn_id is not null and T2.crt_ts < T5.crt_ts then T5.crt_ts
                                            when T1.trxn_id is not null and T5.acct_trxn_id is null then T2.crt_ts end desc
                                        ) as rnk
                FROM(SELECT * FROM T3 WHERE title_name = 'CAPTURE' and tr_dt IN (SELECT tr_dt FROM DT_LKP))
                T2
                LEFT JOIN (SELECT * FROM T6 WHERE tr_dt IN (SELECT tr_dt FROM DT_LKP)) 
                T1 ON T2.w_trxn_id = T1.w_trxn_id AND T2.business_effective_ts = T1.business_effective_ts
                LEFT JOIN (SELECT f1, f3. ... f20 FROM T4 WHERE tr_dt IN (SELECT tr_dt FROM DT_LKP)) 
                T5 ON T1.trxn_id = T5.acct_trxn_id
                WHERE if(T1.trxn_id is null, 'NULL', T1.trxn_id) = if(T5.acct_trxn_id is null, 'NULL', T5.acct_trxn_id)
        ) FNL WHERE rnk = 1

1 个答案:

答案 0 :(得分:2)

不确定这是否对您有很大帮助。有一些相当奇怪的WHERE子句:

WHERE if(T1.trxn_id is null, 'NULL', T1.trxn_id) = if(T5.acct_trxn_id is null, 'NULL', T5.acct_trxn_id)

这可能是为了连接NULL和正常值。然后它不起作用,因为 首先,连接条件为T5 ON T1.trxn_id = T5.acct_trxn_id,这意味着未连接NULL,然后WHERE在连接后用作过滤器。如果未连接T5,则T5.acct_trxn_id在WHERE中转换为'NULL'字符串,并与NOT NULL T1.trxn_id值进行比较,并且很有可能被过滤掉,在这种情况下,其工作方式类似于INNER JOIN。如果发生这种情况,T1.trxn_id为NULL(驱动表),则将其转换为字符串“ NULL”,并与始终为字符串“ NULL”进行比较(因为根据ON子句无论如何都没有加入),并通过了这样的行(尽管我没有对其进行测试) )。逻辑看起来很奇怪,我认为它无法按预期运行或转换为INNER。如果要加入所有包括NULL的内容,请将此WHERE移至JOIN ON子句。

如果有许多行包含NULL,则使用字符串'NULL'进行替换的NULL连接将使行相乘,并导致重复。

实际上,在调查JOIN效果不佳时,请检查两件事:

  1. 联接键不重复或期望重复
  2. 联接键(以及row_number中按列划分的键)没有倾斜,请参见:https://stackoverflow.com/a/53333652/2700344和此:https://stackoverflow.com/a/51061613/2700344

如果一切正常,然后调整适当的reducer并行度,请减少hive.exec.reducers.bytes.per.reducer以使更多的reducer运行

也请尽可能减少DT_LKP,即使您知道它包含某些绝对不是/不应该在表中的日期,也可以使用CTE进行过滤。

还可以稍微简化逻辑(这不会提高性能,但会简化代码)。 选择的情况:

when T1.trxn_id is not null and T5.acct_trxn_id is not null and T2.crt_ts >= T5.crt_ts then T2.crt_ts
when T1.trxn_id is not null and T5.acct_trxn_id is not null and T2.crt_ts < T5.crt_ts then T5.crt_ts

<=>

else greatest(T2.trxn_id,T5.crt_ts)

如果T5.crt_ts为null,则case语句将返回null,great()也将返回null

简化了row_number中的CASE语句:

case when case when (T1.trxn_id is null) or (T5.acct_trxn_id is null) then T2.crt_ts
     else greatest(T2.trxn_id,T5.crt_ts)
 end

还:if(T1.trxn_id is null, 'NULL', T1.trxn_id) <=> NVL(T1.trxn_id,'NULL')

这些当然只是建议,我没有测试