BroadcastHashJoin如何在火花中崭露头角?

时间:2015-12-16 15:31:39

标签: join apache-spark

我正在尝试了解broadcastHashJoin的执行方式。 我知道小表是向所有节点发送广播,但接下来结果会被发送回驱动程序? 我正在使用spark ui来解决网络流量的管理方式,但我没有得到相关的结果,并且驱动程序结果总是为空: Spark ui 为什么我看不到司机的交通?

1 个答案:

答案 0 :(得分:4)

  1. 要向驾驶员广播is collected的关系
  2. 本地收集的关系is hashed
  3. 哈希关系用于create a broadcast variable
  4. Broadcasted relation is used计算并行加入
  5. 您看到的驱动程序中丢失的数据很可能与is not executed inside job并未创建有用指标的散列部分相对应。