调整后的互信息(scikit-learn)

时间:2016-04-26 12:52:21

标签: python-2.7 machine-learning scikit-learn cluster-analysis

我已经实现了一个用于汇总日志文件的聚类算法,目前我正在使用Adjusted Rand索引和Adjusted Mutual Information索引对地面实况数据进行测试。

我的算法输入是一个日志条目列表,输出是一个整数列表(每个项目所属的集群标签)。基本事实同样是整数列表,其中每个整数表示项目所属的真实集群。对于我的大多数测试用例,我收到正常/预期的结果,但是一个文件给了我意想不到的输出。我附上了两个列表,即地面真实聚类以及我算法的聚类:

地面真相清单: http://pastebin.com/9Y5TE6b7

拥有群集: http://pastebin.com/hJz1M4sf

这两个列表被输入scikit-learn函数以获得ARI和AMI。 ARI得分看起来大致正确,但AMI高于1,如果我理解正确的话,根据AMI的文档和定义,这是不可能的。这个数据集非常不平衡,但我的许多其他文件都是相似的平衡。我无法弄清楚这一点。作为参考,我获得的ARI和AMI得分是:

ARI:0.99642743999922712

AMI:1.0190170466324

1 个答案:

答案 0 :(得分:1)

开发版本中已fixed