在我的数据集中,我有一组类别,对于每个类别,我都有一组150个示例。每个例子都被5个人类评估者注释为真/假。我正在使用Fleiss-kappa得分计算注释器间协议:
1) for the entire dataset
2) for each category in particular
然而,我获得的结果显示整个数据集的Fleiss-kappa得分不等于每个类别的Fleiss-kappa得分的平均值。在我的计算中,我使用标准的内置包来计算分数。这可能是由于我的矩阵计算中的错误,还是分数不应该相等?谢谢!