如何为随机森林指定minInstancesPerNode参数?

时间:2018-03-28 13:37:39

标签: apache-spark pyspark apache-spark-mllib

在pyspark中为随机森林指定minInstancesPerNode似乎不太可能。我在scala代码中看不到它,但它在spark R librarydocumentation中提到过。它说:

  

minInstancesPerNode:对于要进一步拆分的节点,每个节点   儿童必须至少接受这么多的训练实例。这个   通常与RandomForest一起使用,因为它们经常被训练   比单个树更深。

是否可以将此参数用于spark中的随机森林(pyspark specificaly)?

1 个答案:

答案 0 :(得分:1)

根据docsminInstancesPerNodepyspark.ml.classification.RandomForestClassifier的输入参数。

您可能正在查看RandomForest的不同实现,可能是mllib实现。