标签: pyspark
在pyspark中使用以下代码段:
df.groupBy('id').agg(collect_list('feature'))
我不断耗尽驱动程序的内存。 因此,我假设收集过程发生在驱动程序上。 如果这是正确的,那么在Scala中实施UDAF是避免该OOM的唯一选择吗?
谢谢
答案 0 :(得分:0)
不,“收集”在这里有点误导。