Hive Queries在Spark 2.0中运行得非常慢

时间:2016-11-18 05:22:24

标签: apache-spark-sql

我有以下简单的HIVE查询,我们有一个用例,我们将并行运行多个HIVE查询,在我们的例子中它是16(我们机器中的核数,使用scala PAR数组)。在Spark 1.6中,它在10秒内执行,但在Spark 2.0中,相同的查询需要5分钟。

"选择*来自emp作为e join部门,作为d on o.dept_id = t.dept_id,其中o.dept_id = 100“

有人可以帮我解决可能出错的问题。为什么这么长时间?

问候,杰伊

1 个答案:

答案 0 :(得分:0)

对于1.6中需要几秒钟才能在2.0中占用几分钟的查询通常是关于任务错误,您可以在日志文件中看到它。您可能会看到"丢失任务..在..."中。

因此,当任务丢失时,运行时将尝试使用相同的任务配置启动另一个执行程序。

除此之外,Spark 2.0必须更快。

还可以检查执行者和主人的内存配置。

希望它有所帮助。