评价者间可靠性计算

时间:2019-06-06 15:59:03

标签: python statistics statsmodels

我有以下列表:

[[1, 1, 1, 1, 3, 0, 0, 1],
 [1, 1, 1, 1, 3, 0, 0, 1],
 [1, 1, 1, 1, 2, 0, 0, 1],
 [1, 1, 0, 2, 3, 1, 0, 1]]

我要在其中计算评分者之间的可靠性评分。有多个评估者(行)。我无法使用Fleiss的kappa,因为行的总和不相同。在这种情况下什么是好的方法?

2 个答案:

答案 0 :(得分:1)

这里的基本问题是您没有正确应用所获得的数据。有关适当的组织,请参见here。您有四个类别(等级0-3)和八个主题。因此,您的表必须具有八行四列,而不考虑审阅者的数量。例如,第一行是对第一项的评分汇总:

[0, 4, 0, 0]   ... since everyone rated it a `1`.

您的-inf值是倒数第二列的P [j]得分除以0。


我以前的答案是对分数进行归一化,是基于对弗莱斯的误解。我心目中的可靠性有所不同。 有许多方法可以计算这样的指标。一个是相对评级点的一致性(可以通过归一化获得);另一个方法是将每个评估者的行转换为相对排名的图表,并计算这些图表之间的相似度。

请注意,Fleiss并非完全适用于具有相对度量的rating情况:它假设这是分类任务,而不是排名。 Fleiss对评级之间的差距并不敏感;它只知道评级不同:(0,1)配对与(0,3)配对一样有害。

答案 1 :(得分:0)

此问题的答案是使用krippendorff alpha分数:

Wikipedia Description

Python Library

import krippendorff

arr = [[1, 1, 1, 1, 3, 0, 0, 1],
       [1, 1, 1, 1, 3, 0, 0, 1],
       [1, 1, 1, 1, 2, 0, 0, 1],
       [1, 1, 0, 2, 3, 1, 0, 1]]    
res = krippendorff.alpha(arr)