Spark Shuffle阻止复制

时间:2018-11-26 17:45:50

标签: apache-spark apache-spark-sql

我想知道是否有可能在不使用持久动作的情况下定义复制逻辑来随机播放块。 用例是具有多个联接的复杂sql,这需要大量的改组,并保存在工作机上(使用splill),松动一台机器可能需要进行阶段重试(使用dag),这非常扩展,可能并不总是有效。

可以使用配置或通过在Spark上下文中从某个类继承来完成。

版本Spark 2.3

0 个答案:

没有答案