Pyspark:如何从spark-ml随机森林中提取可读功能的重要性

时间:2019-10-18 16:21:19

标签: python python-3.x apache-spark pyspark apache-spark-ml

从这个问题pyspark-mllib-random-forest-feature-importances来看,我发现有一个名为featureImportances的方法返回一个SparseVector。

输出是这样的:

SparseVector(2, {0: 0.6, 1:0.4}) 

我的问题是如何将列的名称与函数的原始名称相关联? 有没有一种方法可以从RandomForestClassifier对象中提取列名?

编辑: 该模型是管道的第二阶段。第一阶段是一个VectorAssembler对象,用于定义模型的输入列。

0 个答案:

没有答案