如何在Spark中对数据进行最佳分区以进行最佳处理

时间:2018-10-14 17:29:01

标签: apache-spark pyspark

我正在使用40个节点的EMR集群,每个节点具有16个核,具有1TB内存,我正在处理的数据接近70GB-80GB。

我正在对输入数据帧进行重新分区,以便每个执行程序可以处理相等的数据块,但是重新分区没有正确进行,并且90%的繁重工作由1-2个执行程序完成,其余的执行者只享受MB的数据 即使我没有明确使用重新分区并允许spark进行操作,分区中的偏斜仍然存在

我应该在我的Spark代码中进行哪些更改,以便每个执行者获得几乎相等的数据量进行处理,并且可以减少偏斜度。

0 个答案:

没有答案