应用错误收集

最后一个执行器挂起了spark-sql做左外连接

时间：2015-10-16 21:05:22

标签： hadoop apache-spark

我在带有YARN的300节点集群上使用spark-sql 1.2。我正在执行左外连接，更大的表= 600GB和更小的表176MB，我缓存。

我运行300个执行程序，每个执行程序2GB，驱动程序2GB。

我在where子句中使用日期范围过滤器和条件。

程序运行正常，直到最后一个执行程序超时，并且在多次重试后永远不会返回。

数据有偏差，但我不认为这是问题所在。

程序的最后一步是保存到文本文件。

这两个表是rcfile格式的hive表。

大表有大约90列，连接在一列上。

可能是一个执行者在转到where子句之前保留整个大表吗？
如何通过日志记录来了解正在发生的事情？

0 个答案:

没有答案