我有一个spark作业,可以读取,重复数据删除和连接存储在S3中的数据集。存储的数据采用ORC格式并压缩zlib。在第一阶段(阅读和重复数据删除部分),少数落后任务需要花费大量时间才能完成。我分析了指标,发现了以下内容:
- 这些任务正在处理几乎相同数量的数据。
- Shuffle写的任务几乎相同。
- 每项任务的GC持续时间可以忽略不计。
醇>
请找一些截图供参考。其中一个屏幕截图显示了指标。另一个描述了两个任务所花费的时间(30分钟/ 4.1分钟),随机写入(9.2 mb / 10.3 mb)或数据偏差(6.4M / 7.2M)几乎没有任何差异,并且没有任何可观的GC滞后(5s / 1s) )。
我迷失在这里,不知道是什么导致这种情况发生。任何帮助将不胜感激。
最好的问候
注意:IP已从第二张图像的第五列中删除。