spark sql执行速度很慢

时间:2017-04-13 11:41:06

标签: apache-spark apache-spark-sql

问题已解决。 table_b

中有相同的密钥

我有一个像这样的SQL:

SELECT *
FROM table_a a
LEFT OUTER JOIN tbale_b b ON a.key=b.key
LEFT OUTER JOIN table_c c on a.key2=c.key2

查询由spark on yarn执行。

像往常一样,table_b中只有一条记录在table_a中有相同的键, 查询可以非常快速和正确地执行

但是如果table_b中有一些记录重复,那么查询执行速度会非常慢,其中一个reduce任务会有很高的

spark job snapshot

1 个答案:

答案 0 :(得分:0)

最后,我发现table_b中有许多相同的键

联接结果非常巨大

同一个密钥只在一个任务中执行