标签: apache-spark apache-spark-sql apache-spark-mllib shuffle
我正在尝试对16M与1000个数据集进行相似性联接。在某个阶段,我的执行者未能给出ExecutorLostFailure错误。我相信洗牌是造成这个问题的原因。 我的EMR群集由以下组成: -大师:r4.8xlarge -6个从站:r4.4xlarge 我还广播了1000行数据集以避免混洗(但是我无法从DAG中看到它),但是似乎还不够。您还有其他建议可以使事情正常吗?增加群集是唯一的解决方案? 错误(许多执行程序显示此错误): 我附上我的DAG: [
ExecutorLostFailure