我们正在将用于随机森林分类器的skLearn Python代码转移到Spark ML。我们在参数映射方面遇到问题。
在skLearn Python代码中,我们使用的估算器为1200,最大深度= 20,最小样本拆分= 5,随机状态= 2258。
我尝试转换为SparkML,但不确定所映射的参数是否正确。由于SetNumTrees = 1200作为估计量,但事实并非如此。有人可以帮我将输入映射到SparkML。
初始Python代码:
from sklearn.ensemble import RandomForestClassifier
RandomForestClassifier(n_estimators=1200, max_depth= 20, min_samples_split=5, random_state= 2258)
在ML代码上转移:
from pyspark.ml.classification import RandomForestClassifier
RandomForestClassifier.setMaxDepth(20).setNumTrees(1200).setSeed(2258)