SparkContext.parallelize一个懒惰的序列?

时间:2015-01-16 14:40:53

标签: apache-spark

我可以将惰性序列(例如迭代器)传递到SparkContext.parallelize单元格吗?在#39; d喜欢流式传输大量项目,而不必将它们全部放在堆上。

这可能吗?

1 个答案:

答案 0 :(得分:1)

不,需要将数据切片并发送给工人。在切片期间,它将被加载到驱动程序的内存中。 只有在并行化Range时才能避免它,但我不认为这是你的情况。

Parallelize方法接受Seq而不是Iterator ......