应用错误收集

我正在使用40个节点的EMR集群，每个节点具有16个核，具有1TB内存，我正在处理的数据接近70GB-80GB。

我正在对输入数据帧进行重新分区，以便每个执行程序可以处理相等的数据块，但是重新分区没有正确进行，并且90％的繁重工作由1-2个执行程序完成，其余的执行者只享受MB的数据即使我没有明确使用重新分区并允许spark进行操作，分区中的偏斜仍然存在

我应该在我的Spark代码中进行哪些更改，以便每个执行者获得几乎相等的数据量进行处理，并且可以减少偏斜度。