读取数据时的事件时间轴火花

时间:2018-12-10 09:36:06

标签: apache-spark

gap-events-timeline

我有200万个文件要在集群上读取,当我提交作业以操纵这些数据时,我们会在“事件时间轴”上看到,在集群上执行程序添加的时间与“ runJob”之间存在时间差”过程。

间隔大约为30-40分钟,与此同时,事件时间线未显示“ runJob”过程,集群也未为任务创建舞台。

问题是,是否有人知道在创建事件时间表或创建阶段之前的流程?我如何识别“隐藏”进程。

我猜想进程正在读取200万个数据文件的元数据,但是我找不到明确显示该进程的日志。

集群详细信息:

  • 15名工人和1名硕士
  • 16个核心CPU /工作者
  • 60 GB RAM /工作者
  • 45个执行器,5个核心/执行器,3 GB /执行器

0 个答案:

没有答案