pyspark.sql分组的数据是否将每个组放在一个分区中?

时间:2020-09-20 14:38:33

标签: apache-spark pyspark

当我在GroupedData.agg()中使用组聚合熊猫UDF时,如何将此UDF应用于单个组中的数据?我认为spark是首先对数据进行分区,以便将每个组发送到单个执行器(即不拆分),然后由udf在本地处理每个组。

这正确吗?

如果是这样,要注意什么?如果一组对于执行者来说太大了,会不会出现内存错误?

0 个答案:

没有答案
相关问题