标签: apache-spark
我可以将惰性序列(例如迭代器)传递到SparkContext.parallelize单元格吗?在#39; d喜欢流式传输大量项目,而不必将它们全部放在堆上。
SparkContext.parallelize
这可能吗?
答案 0 :(得分:1)
不,需要将数据切片并发送给工人。在切片期间,它将被加载到驱动程序的内存中。 只有在并行化Range时才能避免它,但我不认为这是你的情况。
Parallelize方法接受Seq而不是Iterator ......