我已经实现了一个用于汇总日志文件的聚类算法,目前我正在使用Adjusted Rand索引和Adjusted Mutual Information索引对地面实况数据进行测试。
我的算法输入是一个日志条目列表,输出是一个整数列表(每个项目所属的集群标签)。基本事实同样是整数列表,其中每个整数表示项目所属的真实集群。对于我的大多数测试用例,我收到正常/预期的结果,但是一个文件给了我意想不到的输出。我附上了两个列表,即地面真实聚类以及我算法的聚类:
地面真相清单: http://pastebin.com/9Y5TE6b7
拥有群集: http://pastebin.com/hJz1M4sf
这两个列表被输入scikit-learn函数以获得ARI和AMI。 ARI得分看起来大致正确,但AMI高于1,如果我理解正确的话,根据AMI的文档和定义,这是不可能的。这个数据集非常不平衡,但我的许多其他文件都是相似的平衡。我无法弄清楚这一点。作为参考,我获得的ARI和AMI得分是:
ARI:0.99642743999922712
AMI:1.0190170466324