我有一个像这样的SQL:
SELECT *
FROM table_a a
LEFT OUTER JOIN tbale_b b ON a.key=b.key
LEFT OUTER JOIN table_c c on a.key2=c.key2
查询由spark on yarn执行。
像往常一样,table_b中只有一条记录在table_a中有相同的键, 查询可以非常快速和正确地执行
但是如果table_b中有一些记录重复,那么查询执行速度会非常慢,其中一个reduce任务会有很高的
答案 0 :(得分:0)
最后,我发现table_b中有许多相同的键
联接结果非常巨大
同一个密钥只在一个任务中执行