我有以下简单的HIVE查询,我们有一个用例,我们将并行运行多个HIVE查询,在我们的例子中它是16(我们机器中的核数,使用scala PAR数组)。在Spark 1.6中,它在10秒内执行,但在Spark 2.0中,相同的查询需要5分钟。
"选择*来自emp作为e join部门,作为d on o.dept_id = t.dept_id,其中o.dept_id = 100“
有人可以帮我解决可能出错的问题。为什么这么长时间?
问候,杰伊
答案 0 :(得分:0)
对于1.6中需要几秒钟才能在2.0中占用几分钟的查询通常是关于任务错误,您可以在日志文件中看到它。您可能会看到"丢失任务..在..."中。
因此,当任务丢失时,运行时将尝试使用相同的任务配置启动另一个执行程序。
除此之外,Spark 2.0必须更快。
还可以检查执行者和主人的内存配置。
希望它有所帮助。