Apache Spark 2.4:为什么会有“不广播”?

时间:2019-12-02 13:05:47

标签: performance apache-spark bigdata broadcast

我已使用

配置了火花提交
  

“-conf”,                 “ spark.sql.autoBroadcastJoinThreshold = 536870912”,512MB

但是DAG仍未广播连接的较小端。

该代码是一个简单的联接。所以我想知道哪里出了问题。

输入内容是实木复合地板文件,存储在S3中。

如果需要更多信息以进行进一步分析,请告诉我。

enter image description here

2 个答案:

答案 0 :(得分:0)

我的猜测是配置 spark.sql.autoBroadcastJoinThreshold 被某个地方覆盖或未正确设置。如果找到它,则应在Spark UI的 Environment 选项卡中进行检查,并检查其设置是否正确。 如果您只需要快速修复,也可以在您已经知道很小的数据集上使用提示 .broadcast 强制广播。

答案 1 :(得分:0)

根据此博客

  

完全外部联接不支持BHJ。对于右外部联接,只能广播左侧表,而对于其他左联接,只能广播右侧表。

这就是广播没有发生的原因。