如果我有一个基于样本集的混淆矩阵,我如何确定我的召回/精确度/等指标的统计功效(置信区间/间隔)?我知道如何对转换概率本身进行统计功效分析,但如何进行召回/精确分析呢?
答案 0 :(得分:5)
找到答案。它是p +/- Z_score_at_alpha * std_error的标准置信区间计算的略微修改的等式。唯一的区别是p(基本上是你的召回概率)是用偏移计算的 - > adjusted_recall =(TP + 2)/(TP + FN + 4)。
一般的想法是,当p为0或1时,标准置信区间方程不起作用。该等式提供允许其工作的调整。它只是一个软糖因素。
此外,std错误现在是sqrt(adjusted_recall(1-adjusted_recall)/(N + 4))。 这被称为威尔逊得分间隔 - https://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval#Wilson_score_interval
http://www.stat.ucdavis.edu/~kwwong/STA13-SS1-12/Statistics_13_files/lecture05.pdf
https://stats.stackexchange.com/questions/109429/wilsons-adjustment-for-sample-proportion