如何从Spark中获取从hdfs读取数据的时间成本

时间:2016-06-27 08:23:29

标签: performance apache-spark

Spark的时间轴包含:

  1. 计划程序延迟
  2. 任务反序列化时间
  3. 随机阅读时间
  4. 执行者计算时间
  5. 随机播放时间
  6. 结果序列化时间
  7. 获得结果时间
  8. 似乎从Executor Computing Time中包含了从源(例如hdfs)读取数据的时间成本。但我不确定。

    如果它在Executor Computing Time中,如何在不包括计算时间成本的情况下获得它。

    感谢。

1 个答案:

答案 0 :(得分:0)

在正在读取数据时对数据进行处理时,很难正确区分读取操作所需的时间。

一个简单的最佳选择就是应用一个简单的操作(比方说,计数),这个操作的开销非常小。如果你的文件是相当大的,那么读取将极大地支配这个简单的操作,特别是如果它是一个像count一样可以在没有在节点之间移动数据的情况下完成(除了单值结果)。