在spark,collect()或toLocalIterator()中更快

时间:2017-06-03 21:23:06

标签: apache-spark

我有一个spark应用程序,我需要从执行程序获取数据到驱动程序,我正在使用collect()。但是,我也遇到了toLocalIterator()。据我所知,在互联网上有toLocalIterator(),它会返回一个迭代器,而不是立即发送整个RDD,因此它具有更好的内存性能,但速度呢?在执行/计算时间方面,collect()toLocalIterator()之间的性能如何?

3 个答案:

答案 0 :(得分:2)

此问题的答案取决于您在制作df.collect()和df.rdd.toLocalIterator()之后会做什么。例如,如果您要处理一个大约700万行的相当大的文件,并且对于其中的每个记录,则在完成所有必需的转换之后,您需要遍历数据帧中的每个记录,并分批进行服务调用100 对于df.collect(),它将把整个记录集转储到驱动程序,因此驱动程序将需要大量的内存。与toLocalIterator()一样,它仅在总记录的分区上返回迭代器,因此驱动程序不需要大量的内存。因此,如果要在同一个群集内的并行工作流中加载如此大的文件,则df.collect()会给您带来很多开销,而toLocalIterator()则不会,而且也会更快,更可靠。 >

另一方面,如果您打算在df.collect()或df.rdd.toLocalIterator()之后进行一些转换,那么df.collect()会更快。

如果您的文件太小,以至于Spark的默认分区逻辑根本无法将其分解为多个分区,则df.collect()会更快。

答案 1 :(得分:1)

引用the documentation notes

  

这导致多个Spark作业,如果输入RDD是广泛转换的结果(例如,使用不同的分区器连接),为了避免重新计算输入,RDD应首先被缓存。

这意味着在最糟糕的情况下(根本没有缓存),n分区的时间可能比collect贵。即使数据为cached,启动多个Spark作业的开销在大型数据集上也会很重要。但是,较低的内存占用可以部分地弥补这一点,加深特定配置。

总体而言,这两种方法都是低效的,应该避免在大型数据集上使用。

答案 2 :(得分:0)

对于toLocalIterator,它用于将分散在集群周围的RDD中的数据收集到一个唯一的节点,即运行该程序的节点,并对同一节点中的所有数据执行某些操作。它类似于collect方法,但它不会返回List,而是返回Iterator。

因此,在使用foreach将函数应用于RDD之后,您可以调用toLocalIterator来获取RDD的所有内容的迭代器并对其进行处理。但是,请记住,如果您的RDD非常大,您可能会遇到内存问题。如果要在执行所需的操作后再次将其转换为RDD,请使用SparkContext对其进行并行化。