在ALS Spark Scala中检查点

时间:2016-01-06 13:50:46

标签: scala apache-spark hdfs apache-spark-mllib

我只想询问具体如何在Spark中成功使用checkpointInterval。你在ALS代码中的这条评论是什么意思:https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/apache/spark/mllib/recommendation/ALS.scala

如果未在[[org.apache.spark.SparkContext]]中设置检查点目录,   *此设置被忽略。

  1. 我们如何设置checkPoint目录?我们可以使用任何与hdfs兼容的目录吗?
  2. 使用setCheckpointInterval在ALS中实现检查点的正确方法是为了避免Stack Overflow错误吗?
  3. 修改

    enter image description here

    enter image description here

1 个答案:

答案 0 :(得分:7)

  

我们如何设置checkPoint目录?我们可以使用任何与hdfs兼容的目录吗?

您可以使用SparkContext.setCheckpointDir。据我记得在本地模式下,本地和DFS路径都可以正常工作,但在群集上,目录必须是HDFS路径

  

使用setCheckpointInterval在ALS中实现检查点的正确方法是为了避免Stack Overflow错误吗?

应该有所帮助。见SPARK-1006

PS:似乎为了在ALS中实际执行检查点,必须设置checkpointDir或检查点不会有效[参考。 here。]