从Python sklearn到SparkML RandonClassifier输入参数映射的随机森林分类器

时间:2019-06-20 18:02:40

标签: python random-forest apache-spark-ml

我们正在将用于随机森林分类器的skLearn Python代码转移到Spark ML。我们在参数映射方面遇到问题。

在skLearn Python代码中,我们使用的估算器为1200,最大深度= 20,最小样本拆分= 5,随机状态= 2258。

我尝试转换为SparkML,但不确定所映射的参数是否正确。由于SetNumTrees = 1200作为估计量,但事实并非如此。有人可以帮我将输入映射到SparkML。

我尝试研究https://spark.apache.org/docs/1.6.1/api/java/org/apache/spark/ml/classification/RandomForestClassifier.html#setNumTrees(int)来找出参数映射

初始Python代码:

from sklearn.ensemble import RandomForestClassifier

RandomForestClassifier(n_estimators=1200, max_depth= 20, min_samples_split=5, random_state= 2258)

在ML代码上转移:

from pyspark.ml.classification import RandomForestClassifier
RandomForestClassifier.setMaxDepth(20).setNumTrees(1200).setSeed(2258) 

0 个答案:

没有答案