ML管道和指标:精确度,召回,AUC-ROC,F1Score

时间:2016-11-17 13:11:22

标签: apache-spark apache-spark-mllib apache-spark-ml precision-recall

我正在使用ML Pipeline,例如:

VectorAssembler assembler = new VectorAssembler()
                .setInputCols(columns)
                .setOutputCol("features");
LogisticRegression lr = new LogisticRegression().setLabelCol(targetColumn);
        lr.setMaxIter(10).setRegParam(0.01).setFeaturesCol("features");

Pipeline logisticRegression = new Pipeline();
logisticRegression.setStages(new PipelineStage[] {assembler, lr});
PipelineModel logisticRegressionModel = logisticRegression.fit(learningData);

我想要的是在此模型上获得Precision, Recall, AUC-ROC, F1-SCORE, ACCURACY等标准指标的方法。 我找到BinaryClassificationMetrics - 但不确定它是否兼容。 RegressionEvaluator似乎只返回mse|rmse|r2|mae

那么使用ML Pipeline提取Precision,Recall等的正确方法是什么?

2 个答案:

答案 0 :(得分:2)

Ryan在上面回答了一些事情。

我可以确认以下工作(注意:我的用例是多类分类)

val scoredTestSet = model.transform(testSet)
val predictionLabelsRDD = scoredTestSet.select("prediction", "label").rdd.map(r => (r.getDouble(0), r.getDouble(1)))
val multiModelMetrics = new MulticlassMetrics(predictionAndLabelsRDD)

答案 1 :(得分:0)

获得数据后,获取预测并标记并将其传递给BinaryClassificationMetrics

下面的内容(认为它是scala我希望它有所帮助)

val scoredTestSet = logisticRegressionModel.transform(testSet)
val predictionLabelsRDD = scoredTestSet.select("prediction", "label").map(r => (r.getDouble(0), r.getDouble(1)))
val binMetrics = new BinaryClassificationMetrics(predictionAndLabels)
// binMetrics.areaUnderROC

来自https://spark.apache.org/docs/latest/mllib-evaluation-metrics.html#binary-classification

的其他示例

在这种情况下的预测是1.0或0.0 您还可以提取概率并使用该概率代替预测,以便binMetrics可以显示多个阈值的数据