如何调试高可信度选择错误类的scikit分类器

时间:2017-10-05 13:13:00

标签: scikit-learn svm

我正在使用LogisticRegression分类器来分类文档。结果很好(macro-avg.f1 = 0.94)。我对预测结果(predict_proba)应用额外的步骤以检查分类是否足够“自信”(例如,对于第一类>> 0.5置信度,对于2.类等具有> 0.2的置信距离)。否则,样品将被丢弃为“未知”。

对我来说最重要的分数是尽管有这个额外步骤,但分配给错误类别的样本数量。不幸的是,这个分数太高了(~0.03)。在许多这种情况下,分类器非常自信(0.8 - 0.9999!),他选择了正确的班级。

到目前为止,更改参数(C,class_weight,min_df,tokenizer)只会导致此分数略有下降,但正确分类会显着减少。然而,看几个样本和各个类的最具辨别力的特征,我无法理解这种高信心来自何处。我认为可以丢弃大部分样本,而不会丢弃更多正确的样本。

有没有办法调试/分析此类案例?这些高置信度值的原因是什么?

0 个答案:

没有答案