pyspark将特征名称映射到系数

时间:2018-12-20 13:13:23

标签: apache-spark pyspark apache-spark-ml

我正在运行PySpark Logistic回归,试图对系数进行排序,以便我可以根据它采取最重要的功能。

Ghe管道使用FeatureHasher和StandardScaler。 当我尝试使用此代码映射要素名称时:

transformed =  model.transform(TrainedData)
attrs = sorted(
(attr["idx"], attr["name"]) for attr in (chain(*transformed
    .schema[lrm.summary.featuresCol]
    .metadata["ml_attr"]["attrs"].values())))

vec = sorted([stage.coefficients for stage in model.stages if hasattr(stage, 
"coefficients")])

失败,因为架构中没有元数据,因此它失败了:

KeyError: 'ml_attr'

为什么?我该如何进行特征<-> coeff映射?

0 个答案:

没有答案