Question

在pyspark中使用以下代码段：

 df.groupBy('id').agg(collect_list('feature'))

我不断耗尽驱动程序的内存。因此，我假设收集过程发生在驱动程序上。如果这是正确的，那么在Scala中实施UDAF是避免该OOM的唯一选择吗？

谢谢

Answer 1

不，“收集”在这里有点误导。