在RDD.zip()操作之后将分区分配到何处

时间:2016-12-19 05:49:01

标签: apache-spark

假设我们有一个RDD rddBefore,在某些地图操作后变成rddAfterpartitionBefore中的一个分区rddBefore对应partitionAfter中的rddAfter

由于火花可能会在计算过程中降低地点,因此partitionBeforepartitionAfter可以分布在不同的计算机上,例如m1m2

rddBefore.zip(rddAfter)之后,哪台机器(partitionBefore, partitionAfter)会被分发到哪里?

由于

1 个答案:

答案 0 :(得分:1)

有两种可能的情况:

  • 如果父母双方都preferredLocations重叠,这些位置将被用作孩子的首选位置。
  • 否则使用preferredLocations的联合(不首选父项)。