为什么Spark在我的相似加入期间杀死我的执行者?

时间:2019-06-19 09:00:44

标签: apache-spark apache-spark-sql apache-spark-mllib shuffle

我正在尝试对16M与1000个数据集进行相似性联接。在某个阶段,我的执行者未能给出ExecutorLostFailure错误。我相信洗牌是造成这个问题的原因。 我的EMR群集由以下组成:
-大师:r4.8xlarge
-6个从站:r4.4xlarge
我还广播了1000行数据集以避免混洗(但是我无法从DAG中看到它),但是似乎还不够。您还有其他建议可以使事情正常吗?增加群集是唯一的解决方案?
错误(许多执行程序显示此错误):
enter image description here 我附上我的DAG:
[DAG[1]

0 个答案:

没有答案