apache-spark - pyspark.sql分组的数据是否将每个组放在一个分区中？ - Thinbug

pyspark.sql分组的数据是否将每个组放在一个分区中？

时间：2020-09-20 14:38:33

标签： apache-spark pyspark

当我在GroupedData.agg（）中使用组聚合熊猫UDF时，如何将此UDF应用于单个组中的数据？我认为spark是首先对数据进行分区，以便将每个组发送到单个执行器（即不拆分），然后由udf在本地处理每个组。

这正确吗？

如果是这样，要注意什么？如果一组对于执行者来说太大了，会不会出现内存错误？

0 个答案:

没有答案