最后一个执行器挂起了spark-sql做左外连接

时间:2015-10-16 21:05:22

标签: hadoop apache-spark

我在带有YARN的300节点集群上使用spark-sql 1.2。我正在执行左外连接,更大的表= 600GB和更小的表176MB,我缓存。

我运行300个执行程序,每个执行程序2GB,驱动程序2GB。

我在where子句中使用日期范围过滤器和条件。

程序运行正常,直到最后一个执行程序超时,并且在多次重试后永远不会返回。

数据有偏差,但我不认为这是问题所在。

程序的最后一步是保存到文本文件。

这两个表是rcfile格式的hive表。

大表有大约90列,连接在一列上。

  • 可能是一个执行者在转到where子句之前保留整个大表吗?
  • 如何通过日志记录来了解正在发生的事情?

0 个答案:

没有答案