一个执行器在火花流任务中运行的时间比所有其他执行器长得多

时间:2015-05-07 12:00:47

标签: apache-spark apache-kafka spark-streaming

enter image description here

我正在将火花流与kafka集成,在其中一个阶段,一个执行器的运行速度比另一个慢得多。

你可以在图片中找到,h10.zw运行2.6分钟,“任务时间”是52分钟,这比其他执行器长得多。但是随机读取大小/随机写入大小与其他大小相同。

我想知道什么是“任务时间”?什么是h10.zw执行者在做什么?如何平衡所有执行程序的运行时间以避免时间偏差?

1 个答案:

答案 0 :(得分:1)

根据您的确切处理,这可能是data skew所致。尝试speculative execution并将分区更改为smaller partitions。这应该有助于确定是否是这种情况。