我已使用
配置了火花提交“-conf”, “ spark.sql.autoBroadcastJoinThreshold = 536870912”,512MB
但是DAG仍未广播连接的较小端。
该代码是一个简单的联接。所以我想知道哪里出了问题。
输入内容是实木复合地板文件,存储在S3中。
如果需要更多信息以进行进一步分析,请告诉我。
答案 0 :(得分:0)
我的猜测是配置 spark.sql.autoBroadcastJoinThreshold 被某个地方覆盖或未正确设置。如果找到它,则应在Spark UI的 Environment 选项卡中进行检查,并检查其设置是否正确。 如果您只需要快速修复,也可以在您已经知道很小的数据集上使用提示 .broadcast 强制广播。
答案 1 :(得分:0)
根据此博客
完全外部联接不支持BHJ。对于右外部联接,只能广播左侧表,而对于其他左联接,只能广播右侧表。
这就是广播没有发生的原因。