标签: apache-spark apache-spark-sql
我正在每个分区(天)迭代地处理数据帧,并将其与一些元数据(丰富化)结合起来
扩充将被缓存在内存中,并执行广播JOIN。 如何确保随机播放的广播部分只发生一次?而且每次迭代都不会一次又一次吗?
Broadcast hash join - Iterative已经有了2.4的答案,但是,我需要2.2.x的答案。
我不想手动创建广播变量,而是希望相应地设置spark.sql.autoBroadcastJoinThreshold。在2.2上仍然可行吗?
spark.sql.autoBroadcastJoinThreshold