如何在PySpark环境中向随机森林模型添加检查点?

时间:2016-11-23 20:16:13

标签: apache-spark pyspark random-forest apache-spark-mllib apache-spark-ml

我正在使用RandomForest.trainClassifier

支持的参数是:

  • 输入
  • numClasses
  • categoricalFeaturesInfo
  • numTrees
  • featureSubsetStrategy
  • 杂质
  • MAXDEPTH
  • maxBins
  • 种子

但Scala中提供了useNodeIdCachecheckpointDircheckpointInterval等额外参数。

如何在PySpark中实现这些功能?

1 个答案:

答案 0 :(得分:2)

pyspark.mllib处于维护模式并且开发时间较长(无法添加对这些功能的访问权限)。如果您使用全功能API pyspark.ml,则提供: