应用错误收集

如何为随机森林指定minInstancesPerNode参数？

时间：2018-03-28 13:37:39

标签： apache-spark pyspark apache-spark-mllib

在pyspark中为随机森林指定minInstancesPerNode似乎不太可能。我在scala代码中看不到它，但它在spark R library和documentation中提到过。它说：

minInstancesPerNode：对于要进一步拆分的节点，每个节点儿童必须至少接受这么多的训练实例。这个通常与RandomForest一起使用，因为它们经常被训练比单个树更深。

是否可以将此参数用于spark中的随机森林（pyspark specificaly）？

1 个答案:

答案 0 :(得分：1)

根据docs，minInstancesPerNode是pyspark.ml.classification.RandomForestClassifier的输入参数。

您可能正在查看RandomForest的不同实现，可能是mllib实现。