应用错误收集

在我的数据集中，我有一组类别，对于每个类别，我都有一组150个示例。每个例子都被5个人类评估者注释为真/假。我正在使用Fleiss-kappa得分计算注释器间协议：

1) for the entire dataset
2) for each category in particular

然而，我获得的结果显示整个数据集的Fleiss-kappa得分不等于每个类别的Fleiss-kappa得分的平均值。在我的计算中，我使用标准的内置包来计算分数。这可能是由于我的矩阵计算中的错误，还是分数不应该相等？谢谢！