标签: apache-spark pyspark
我正在使用40个节点的EMR集群,每个节点具有16个核,具有1TB内存,我正在处理的数据接近70GB-80GB。
我正在对输入数据帧进行重新分区,以便每个执行程序可以处理相等的数据块,但是重新分区没有正确进行,并且90%的繁重工作由1-2个执行程序完成,其余的执行者只享受MB的数据 即使我没有明确使用重新分区并允许spark进行操作,分区中的偏斜仍然存在
我应该在我的Spark代码中进行哪些更改,以便每个执行者获得几乎相等的数据量进行处理,并且可以减少偏斜度。