应用错误收集

Pyspark：如何从spark-ml随机森林中提取可读功能的重要性

时间：2019-10-18 16:21:19

标签： python python-3.x apache-spark pyspark apache-spark-ml

从这个问题pyspark-mllib-random-forest-feature-importances来看，我发现有一个名为featureImportances的方法返回一个SparseVector。

输出是这样的：

SparseVector(2, {0: 0.6, 1:0.4})

我的问题是如何将列的名称与函数的原始名称相关联？有没有一种方法可以从RandomForestClassifier对象中提取列名？

编辑：该模型是管道的第二阶段。第一阶段是一个VectorAssembler对象，用于定义模型的输入列。

0 个答案:

没有答案