应用错误收集

时间：2016-07-27 19:14:30

标签： statistics analysis ranking information-retrieval

我有两组，＃34;＆＃34;和＆＃34; out，＆＃34;和可以在组之间拆分的项目类别。例如，我可以将项目类别A设为99％＆＃34;在＆＃34; 1％＆＃34; out，＆＃34;和项目B是98％＆＃34;在＆＃34;和2％＆＃34; out。＆＃34;

对于这些项目中的每一项，我实际上都有进/出的计数。例如，A可以有99个项目和1个项目输出，B可以有196个项目，4个项目输出。

我想根据＆＃34; in，＆＃34;的百分比对这些项目进行排名。但我还想优先考虑总体人口较多的项目。这是因为我想专注于与＆＃34; in＆＃34;非常相关的项目。组，但仍然有很多项目在＆＃34; out＆＃34;我可以追求的团体。

是否有某种分数可以做到这一点？

答案 0 :(得分：1)

我很想使用概率排名 - 项目类别来自该组的实际数字的概率。这需要对数据集做出一些假设，包括为什么某个类别可能包含任何组外项目。您可以查看binomial test或Mann-Whitney U test作为开始。您还可以查看其他一些nonparametric statistics。

答案 1 :(得分：1)

我最终使用了贝叶斯平均值，这是this post.中推荐的。this wikipedia article中简要介绍了该技术，并在this post by Evan miller和this post by Paul Masurel中进行了更全面的描述。

在贝叶斯平均中，“先前值”用于影响分子和分母的预期值。基本上，预期的分子和预期分母被添加到实际的分子和分母中。在分子和分母较小的情况下，先验值具有较大的影响，因为它们代表新分子/分母的较大比例。随着分子和分母的数量增长，由于信心增强，贝叶斯平均值开始接近实际平均值。

在我的情况下，平均值的先前值相当低，偏低的平均值与小分母的下降。