应用错误收集

我正在运行PySpark Logistic回归，试图对系数进行排序，以便我可以根据它采取最重要的功能。

Ghe管道使用FeatureHasher和StandardScaler。当我尝试使用此代码映射要素名称时：

transformed =  model.transform(TrainedData)
attrs = sorted(
(attr["idx"], attr["name"]) for attr in (chain(*transformed
    .schema[lrm.summary.featuresCol]
    .metadata["ml_attr"]["attrs"].values())))

vec = sorted([stage.coefficients for stage in model.stages if hasattr(stage, 
"coefficients")])

失败，因为架构中没有元数据，因此它失败了：

KeyError: 'ml_attr'

为什么？我该如何进行特征<-> coeff映射？

pyspark将特征名称映射到系数

0 个答案: