spark shuffle read time

时间:2017-03-24 23:57:02

标签: apache-spark pyspark shuffle

enter image description here k.imgur.com/r8NIv.png

enter image description here

我很难从Spark UI处理这些信息。具有最低火花随机读取大小/记录的执行器花费最大时间来读取如图中所示的随机块。我不明白这是代码问题还是这是一个数据节点问题。

1 个答案:

答案 0 :(得分:0)

也许它不仅仅是由随机读取大小引起的,还有很多因素会影响洗牌时间,比如分区数量。你可以尝试修改关于shuffle的配置参数。 shuffle-behavior