我只想询问具体如何在Spark中成功使用checkpointInterval。你在ALS代码中的这条评论是什么意思:https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/apache/spark/mllib/recommendation/ALS.scala
如果未在[[org.apache.spark.SparkContext]]中设置检查点目录, *此设置被忽略。
答案 0 :(得分:7)
我们如何设置checkPoint目录?我们可以使用任何与hdfs兼容的目录吗?
您可以使用SparkContext.setCheckpointDir
。据我记得在本地模式下,本地和DFS路径都可以正常工作,但在群集上,目录必须是HDFS路径。
使用setCheckpointInterval在ALS中实现检查点的正确方法是为了避免Stack Overflow错误吗?
应该有所帮助。见SPARK-1006
PS:似乎为了在ALS中实际执行检查点,必须设置checkpointDir
或检查点不会有效[参考。 here。]