标签: apache-spark partition
我有一个要求,即每个spark工作者在迭代之间保留其变量。变量是一个太大而不能包含在每个RDD中的结构。我可以使用foreachpartition,但是没有机制为每个分区传递一次变量(并在之后传回)。即使具有相同的ID,对分区的调用之间也没有连续性。重复播放太贵了。有没有人知道解决这个问题的方法?
答案 0 :(得分:1)
您可以发送这些变量的数组,并使用partition_id来访问连续性值。