标签: apache-spark pyspark shuffle
k.imgur.com/r8NIv.png
我很难从Spark UI处理这些信息。具有最低火花随机读取大小/记录的执行器花费最大时间来读取如图中所示的随机块。我不明白这是代码问题还是这是一个数据节点问题。
答案 0 :(得分:0)
也许它不仅仅是由随机读取大小引起的,还有很多因素会影响洗牌时间,比如分区数量。你可以尝试修改关于shuffle的配置参数。 shuffle-behavior