如何在随机森林中使用Spark的功能重要性?

时间:2016-01-05 22:15:59

标签: scala apache-spark random-forest apache-spark-mllib

documentationRandom Forests不包含要素重要性。但是,它已在Jira上列为已解决且位于source codeHERE也说"此API与原始MLlib合奏API之间的主要区别在于:

  • 支持DataFrames和ML Pipelines
  • 分类与回归的分离
  • 使用DataFrame元数据来区分连续和分类 特征
  • 随机森林的更多功能:功能估算 重要性,以及每个班级的预测概率 (a.k.a.类条件概率)用于分类。"

但是,我无法弄清楚可以调用此新功能的语法。

.

1 个答案:

答案 0 :(得分:3)

您必须使用新的随机森林。检查你的进口。 老人:

import org.apache.spark.mllib.tree.RandomForest
import org.apache.spark.mllib.tree.model.RandomForestModel

新随机森林使用:

import org.apache.spark.ml.classification.RandomForestClassificationModel
import org.apache.spark.ml.classification.RandomForestClassifier

This S.O. answer provides code for extracting the importances.

This S.O. answer explains the sparse vector that is returned.