我在spark-shell中运行了一个spark sql作业,该作业从镶木地板文件中创建了一个表。
在驱动程序节点的Web UI上,有许多任务指标:
持续时间/调度程序延迟/任务反序列化时间/ GC时间/结果序列化时间/获取结果时间/写入时间
我想知道从磁盘上读取镶木地板花了多少时间(不包括反序列化的时间,元组的重建,随机写入等)。
我应该如何计算?是
读取时间=持续时间 - 调度程序延迟 - 任务反序列化时间 - GC时间 - 结果序列化时间 - 获取结果时间 - 写入时间?
谢谢,