我正在运行PySpark Logistic回归,试图对系数进行排序,以便我可以根据它采取最重要的功能。
Ghe管道使用FeatureHasher和StandardScaler。 当我尝试使用此代码映射要素名称时:
transformed = model.transform(TrainedData)
attrs = sorted(
(attr["idx"], attr["name"]) for attr in (chain(*transformed
.schema[lrm.summary.featuresCol]
.metadata["ml_attr"]["attrs"].values())))
vec = sorted([stage.coefficients for stage in model.stages if hasattr(stage,
"coefficients")])
失败,因为架构中没有元数据,因此它失败了:
KeyError: 'ml_attr'
为什么?我该如何进行特征<-> coeff映射?