仅触发一次迭代操作并播放一次

时间:2019-12-19 10:09:29

标签: apache-spark apache-spark-sql

我正在每个分区(天)迭代地处理数据帧,并将其与一些元数据(丰富化)结合起来

扩充将被缓存在内存中,并执行广播JOIN。 如何确保随机播放的广播部分只发生一次?而且每次迭代都不会一次又一次吗?

Broadcast hash join - Iterative已经有了2.4的答案,但是,我需要2.2.x的答案。

我不想手动创建广播变量,而是希望相应地设置spark.sql.autoBroadcastJoinThreshold。在2.2上仍然可行吗?

0 个答案:

没有答案