在pyspark中为随机森林指定minInstancesPerNode
似乎不太可能。我在scala代码中看不到它,但它在spark R library和documentation中提到过。它说:
minInstancesPerNode:对于要进一步拆分的节点,每个节点 儿童必须至少接受这么多的训练实例。这个 通常与RandomForest一起使用,因为它们经常被训练 比单个树更深。
是否可以将此参数用于spark中的随机森林(pyspark specificaly)?
答案 0 :(得分:1)
根据docs,minInstancesPerNode
是pyspark.ml.classification.RandomForestClassifier
的输入参数。
您可能正在查看RandomForest的不同实现,可能是mllib
实现。