我正在将火花流与kafka集成,在其中一个阶段,一个执行器的运行速度比另一个慢得多。
你可以在图片中找到,h10.zw运行2.6分钟,“任务时间”是52分钟,这比其他执行器长得多。但是随机读取大小/随机写入大小与其他大小相同。
我想知道什么是“任务时间”?什么是h10.zw执行者在做什么?如何平衡所有执行程序的运行时间以避免时间偏差?
答案 0 :(得分:1)
根据您的确切处理,这可能是data skew所致。尝试speculative execution并将分区更改为smaller partitions。这应该有助于确定是否是这种情况。