Apache Spark - 几乎没有任何拖延任务会减慢阶段和工作

时间:2018-03-04 21:56:49

标签: apache-spark amazon-s3 orc

我有一个spark作业,可以读取,重复数据删除和连接存储在S3中的数据集。存储的数据采用ORC格式并压缩zlib。在第一阶段(阅读和重复数据删除部分),少数落后任务需要花费大量时间才能完成。我分析了指标,发现了以下内容:

  1. 这些任务正在处理几乎相同数量的数据。
  2. Shuffle写的任务几乎相同。
  3. 每项任务的GC持续时间可以忽略不计。
  4. 请找一些截图供参考。其中一个屏幕截图显示了指标。另一个描述了两个任务所花费的时间(30分钟/ 4.1分钟),随机写入(9.2 mb / 10.3 mb)或数据偏差(6.4M / 7.2M)几乎没有任何差异,并且没有任何可观的GC滞后(5s / 1s) )。

    我迷失在这里,不知道是什么导致这种情况发生。任何帮助将不胜感激。

    最好的问候

    注意:IP已从第二张图像的第五列中删除。 enter image description here enter image description here

0 个答案:

没有答案