应用错误收集

时间：2016-11-18 05:22:24

标签： apache-spark-sql

我有以下简单的HIVE查询，我们有一个用例，我们将并行运行多个HIVE查询，在我们的例子中它是16（我们机器中的核数，使用scala PAR数组）。在Spark 1.6中，它在10秒内执行，但在Spark 2.0中，相同的查询需要5分钟。

＆＃34;选择*来自emp作为e join部门，作为d on o.dept_id = t.dept_id，其中o.dept_id = 100“

有人可以帮我解决可能出错的问题。为什么这么长时间？

问候，杰伊

答案 0 :(得分：0)

对于1.6中需要几秒钟才能在2.0中占用几分钟的查询通常是关于任务错误，您可以在日志文件中看到它。您可能会看到＆＃34;丢失任务..在...＆＃34;中。

因此，当任务丢失时，运行时将尝试使用相同的任务配置启动另一个执行程序。

除此之外，Spark 2.0必须更快。

还可以检查执行者和主人的内存配置。

希望它有所帮助。