应用错误收集

如何从Spark中获取从hdfs读取数据的时间成本

时间：2016-06-27 08:23:29

标签： performance apache-spark

Spark的时间轴包含：

计划程序延迟
任务反序列化时间
随机阅读时间
执行者计算时间
随机播放时间
结果序列化时间
获得结果时间

似乎从Executor Computing Time中包含了从源（例如hdfs）读取数据的时间成本。但我不确定。

如果它在Executor Computing Time中，如何在不包括计算时间成本的情况下获得它。

感谢。

1 个答案:

答案 0 :(得分：0)

在正在读取数据时对数据进行处理时，很难正确区分读取操作所需的时间。

一个简单的最佳选择就是应用一个简单的操作（比方说，计数），这个操作的开销非常小。如果你的文件是相当大的，那么读取将极大地支配这个简单的操作，特别是如果它是一个像count一样可以在没有在节点之间移动数据的情况下完成（除了单值结果）。