应用错误收集

使用pyspark foreachpartition但保留分区特定变量

时间：2017-09-18 21:13:59

标签： apache-spark partition

我有一个要求，即每个spark工作者在迭代之间保留其变量。变量是一个太大而不能包含在每个RDD中的结构。我可以使用foreachpartition，但是没有机制为每个分区传递一次变量（并在之后传回）。即使具有相同的ID，对分区的调用之间也没有连续性。重复播放太贵了。有没有人知道解决这个问题的方法？

1 个答案:

答案 0 :(得分：1)

您可以发送这些变量的数组，并使用partition_id来访问连续性值。