标签: apache-spark pyspark random-forest apache-spark-mllib apache-spark-ml
我正在使用RandomForest.trainClassifier。
RandomForest.trainClassifier
支持的参数是:
但Scala中提供了useNodeIdCache,checkpointDir和checkpointInterval等额外参数。
useNodeIdCache
checkpointDir
checkpointInterval
如何在PySpark中实现这些功能?
答案 0 :(得分:2)
pyspark.mllib处于维护模式并且开发时间较长(无法添加对这些功能的访问权限)。如果您使用全功能API pyspark.ml,则提供:
pyspark.mllib
pyspark.ml
setCacheNodeIds
setCheckpointInterval