我已经阅读了很多以分类为重点的论文,他们中的大多数人都表示在处理不平衡问题时使用AUC-PR更好..例如来自here的引用:
假阳性数量的大量变化可导致ROC分析中使用的假阳性率的微小变化。另一方面,精确度通过将误报与真阳性而不是真阴性进行比较,捕获了大量负面例子对算法性能的影响。
但是,我不确定scikit-learn中的哪个平均值代表了这种纸张使用的计算..是宏观平均还是加权?
答案 0 :(得分:0)
这是一个很好的问题。对于二进制问题设置,类不平衡不会影响您的AUC分数(这就是AUC通常是首选指标的原因)。
但是,对于多类设置,它应该在纸上明确指出它们使用哪种度量标准。 scikit-learn中的默认实现是宏平均值;我认为这是他们的默认原因。