标签: apache-spark
我有200万个文件要在集群上读取,当我提交作业以操纵这些数据时,我们会在“事件时间轴”上看到,在集群上执行程序添加的时间与“ runJob”之间存在时间差”过程。
间隔大约为30-40分钟,与此同时,事件时间线未显示“ runJob”过程,集群也未为任务创建舞台。
问题是,是否有人知道在创建事件时间表或创建阶段之前的流程?我如何识别“隐藏”进程。
我猜想进程正在读取200万个数据文件的元数据,但是我找不到明确显示该进程的日志。
集群详细信息: