应用错误收集

这两者的第一个区别是forEach()是一个动作，而mapPartition()是一个转换。比较forEach和forEachPartition会更有意义，因为它们都是动作，并且它们都作用于驱动程序上的最终累积数据。请参阅here，以获取有关这两个的详细讨论。至于内存消耗，实际上取决于您返回给驱动程序的数据量。作为经验法则，请记住使用limit(), take(), first()等方法在驱动程序上返回结果，并避免使用collect()，除非您确定数据可以容纳在驱动程序的内存中。

可以将mapPartition与map或flatMap函数进行比较，它们将通过应用某种转换来修改RDDs数据。 mapPartition效率更高，因为当map对数据集中的每个项目执行相同的操作时，它将执行给定功能的次数更少。有关这两个详细信息，请参见here。

Apache Spark-迭代器和内存消耗

1 个答案: