mapPartitionsWithIndex - 如何组合输出

时间:2017-11-24 07:26:51

标签: python-3.x apache-spark pyspark

我想了解Spark中的mapPartitionsWithIndex。我发现以下两个例子产生了截然不同的输出:

parallel = sc.parallelize(range(1,10),2)
def show(index, iterator): yield 'index: '+str(index)+" values: "+ 
str(list(iterator))
parallel.mapPartitionsWithIndex(show).collect()


parallel = sc.parallelize(range(1,10),2)
def show(index, iterator): return 'index: '+str(index)+" values: "+ 
str(list(iterator))
parallel.mapPartitionsWithIndex(show).collect()

如突出显示的那样,区别在于show函数是返回生成器还是迭代器。

我想我不明白mapPartitionsWithIndex如何结合各个分区的结果。

您能否向我解释一下这种行为是如何发生的?

1 个答案:

答案 0 :(得分:1)

mapPartitionsWithIndex(self, f, preservesPartitioning=False)

参数:f必须返回可迭代对象。

通常,如果没有返回可迭代对象,则应该引发错误。

但在您的情况2中,return String在源代码中错误地通过return list of letter变为iterator = iter(iterator)(pyspark / serializers.py,第266行)。

如果您坚持使用return ["I'm String"],则只需return