我有两组,#34;"和" out,"和可以在组之间拆分的项目类别。例如,我可以将项目类别A设为99%"在" 1%" out,"和项目B是98%"在"和2%" out。"
对于这些项目中的每一项,我实际上都有进/出的计数。例如,A可以有99个项目和1个项目输出,B可以有196个项目,4个项目输出。
我想根据" in,"的百分比对这些项目进行排名。但我还想优先考虑总体人口较多的项目。这是因为我想专注于与" in"非常相关的项目。组,但仍然有很多项目在" out"我可以追求的团体。
是否有某种分数可以做到这一点?
答案 0 :(得分:1)
我很想使用概率排名 - 项目类别来自该组的实际数字的概率。这需要对数据集做出一些假设,包括为什么某个类别可能包含任何组外项目。您可以查看binomial test或Mann-Whitney U test作为开始。您还可以查看其他一些nonparametric statistics。
答案 1 :(得分:1)
我最终使用了贝叶斯平均值,这是this post.中推荐的。this wikipedia article中简要介绍了该技术,并在this post by Evan miller和this post by Paul Masurel中进行了更全面的描述。
在贝叶斯平均中,“先前值”用于影响分子和分母的预期值。基本上,预期的分子和预期分母被添加到实际的分子和分母中。在分子和分母较小的情况下,先验值具有较大的影响,因为它们代表新分子/分母的较大比例。随着分子和分母的数量增长,由于信心增强,贝叶斯平均值开始接近实际平均值。
在我的情况下,平均值的先前值相当低,偏低的平均值与小分母的下降。