Spark的时间轴包含:
似乎从Executor Computing Time
中包含了从源(例如hdfs)读取数据的时间成本。但我不确定。
如果它在Executor Computing Time
中,如何在不包括计算时间成本的情况下获得它。
感谢。
答案 0 :(得分:0)
在正在读取数据时对数据进行处理时,很难正确区分读取操作所需的时间。
一个简单的最佳选择就是应用一个简单的操作(比方说,计数),这个操作的开销非常小。如果你的文件是相当大的,那么读取将极大地支配这个简单的操作,特别是如果它是一个像count一样可以在没有在节点之间移动数据的情况下完成(除了单值结果)。