Spark collect_list是否将数据发送到驱动程序?

时间:2018-08-08 17:53:42

标签: pyspark

在pyspark中使用以下代码段:

 df.groupBy('id').agg(collect_list('feature'))

我不断耗尽驱动程序的内存。 因此,我假设收集过程发生在驱动程序上。 如果这是正确的,那么在Scala中实施UDAF是避免该OOM的唯一选择吗?

谢谢

1 个答案:

答案 0 :(得分:0)

不,“收集”在这里有点误导。