我查看了很多在线提供的文献,包括这个论坛没有任何运气,并希望有人可以帮助我目前面临的统计问题:
我有5个排名数据列表,每个列表包含从位置1(最佳)到位置10(最差)排名的10个项目。为了上下文,每个列表中的10个项目是相同的,但是在不同的排序顺序中,因为用于确定其排名的技术是不同的。
*示例数据: 清单1清单2清单3 ......等
项目1排名1排名2排名1
项目2排名3排名1排名2
项目3排名2排名3排名3
......等*
我正在寻找一种方法来解释和分析上述数据,以便我得到一个最终结果,显示每个项目的总体排名,基于每个测试及其位置,例如
结果
等级1 =第1项
等级2 =第3项
等级3 =第4项
...等
有没有人知道如何用统计学上合理的方法(在研究生/博士学位适用水平)解释这些数据,这样我才能理解整个排名,表明5个测试中列表中每个项目的重要性?或者,如果有其他类型的技术或统计测试,我可以调查一下,我将不胜感激任何提示或指导。
(也许还值得注意的是,我还执行了更简单的数学技术,如求和,平均,最小 - 最大测试等,但不觉得这些在统计上足够重要)。
非常感谢任何帮助或建议,谢谢您的时间。
答案 0 :(得分:1)
您可以使用机器学习来获取排名列表。在信息检索研究领域 - 这被称为Learning to Rank - 并且有大量关于它的文献。 This tutorial(抬头:高级教程)可以帮助您理解基本概念,并指出您需要深化的文章。
您可能还想查看interleaved ranking。这最初是为两个列表的评估而设计的,但它也可能适用于您的情况。
答案 1 :(得分:0)
许多非参数统计测试的工作原理是将收到的数据转换为等级然后分析等级(如果数据远离正态分布,这可以使生活更轻松)。如果您的排名可能来自您无法直接观察到的某些潜在得分或善良,您可以应用任何这些测试 - http://en.wikipedia.org/wiki/Ranking#Ranking_in_statistics或任何有关非参数统计的书籍都有一个简短的列表,例如Conover,应该覆盖它们。
如果您能够提出您感兴趣的统计数据,例如任何一个项目的总排名,您可以使用排列测试 - http://en.wikipedia.org/wiki/Resampling_%28statistics%29#Permutation_tests来计算相关统计数据的概率至少在观察到的极端情况下,在所有排名都是随机的概率下 - 您只需生成遵循零假设的大量数据,并查看随机生成数据中统计量的分布。然后,您可以使用它来获得P值,或者更好的是置信区间。