为什么Spark的第一次迭代很慢而且进一步的迭代更快?

时间:2017-04-05 07:23:06

标签: apache-spark pyspark spark-streaming

如果我们正在运行spark工作,那就让我们说火花中的逻辑回归

对于第一次迭代,火花将需要大约80秒,而且还需要1秒为什么会这样?

这里火花的内在行为是什么?我知道spark存储内存中的数据,这就是为什么计算速度更快但详细的解释会很好!

1 个答案:

答案 0 :(得分:2)

少数事情:

  1. 第一次迭代可以包含向工人发送代码等。
  2. 大多数ML算法将输入数据缓存在内存中。缓存是懒惰的,所以在第一次迭代中,整个数据集被缓存 - 移动到RAM - 并且在下一次迭代中算法使用缓存数据 - 这要快得多
  3. 必须初始化Spark基础架构 - 部分上下文,执行程序JVM