如何计算作业的文件读取时间?

时间:2015-01-24 11:24:20

标签: apache-spark-sql parquet

我在spark-shell中运行了一个spark sql作业,该作业从镶木地板文件中创建了一个表。

在驱动程序节点的Web UI上,有许多任务指标:

持续时间/调度程序延迟/任务反序列化时间/ GC时间/结果序列化时间/获取结果时间/写入时间

我想知道从磁盘上读取镶木地板花了多少时间(不包括反序列化的时间,元组的重建,随机写入等)。

我应该如何计算?是

读取时间=持续时间 - 调度程序延迟 - 任务反序列化时间 - GC时间 - 结果序列化时间 - 获取结果时间 - 写入时间?

谢谢,

0 个答案:

没有答案