Question

问题已解决。 table_b

中有相同的密钥

我有一个像这样的SQL：

SELECT *
FROM table_a a
LEFT OUTER JOIN tbale_b b ON a.key=b.key
LEFT OUTER JOIN table_c c on a.key2=c.key2

查询由spark on yarn执行。

像往常一样，table_b中只有一条记录在table_a中有相同的键，查询可以非常快速和正确地执行

但是如果table_b中有一些记录重复，那么查询执行速度会非常慢，其中一个reduce任务会有很高的

Answer 1

最后，我发现table_b中有许多相同的键

联接结果非常巨大

同一个密钥只在一个任务中执行