应用错误收集

spark shuffle read time

时间：2017-03-24 23:57:02

标签： apache-spark pyspark shuffle

k.imgur.com/r8NIv.png

我很难从Spark UI处理这些信息。具有最低火花随机读取大小/记录的执行器花费最大时间来读取如图中所示的随机块。我不明白这是代码问题还是这是一个数据节点问题。

1 个答案:

答案 0 :(得分：0)

也许它不仅仅是由随机读取大小引起的，还有很多因素会影响洗牌时间，比如分区数量。你可以尝试修改关于shuffle的配置参数。 shuffle-behavior