何时在Spark中使用map vs mapPartitions

时间:2016-01-04 21:48:06

标签: apache-spark pyspark

我知道mapmapPartitions之间的区别,它们分别是元素和元素的迭代器。

我什么时候应该使用哪个?如果开销相似,为什么我会使用mapPartitions,因为map更容易编写?

1 个答案:

答案 0 :(得分:2)

angular.module('parentModule',['slamModuleCtrl','genericModue'])将函数映射到RDD的每个元素,而RDD.map将函数映射到RDD的每个分区。

RDD.mapPartitions不会更改RDD中的元素数量,而map可能会更改。

在类似问题上另见this answer and comments