如何调查集群质量?

时间:2017-06-02 19:40:22

标签: python machine-learning scikit-learn cluster-analysis k-means

我一直在试验K-means聚类算法。 我有一个电影评论的数据集,我正在摆弄,尝试使用我手动(好的,编程)定义的功能对它们进行聚类。 我开始明白,预先知道在聚类之前使用k的值是不可能的,而且我不确定自己想拥有的聚类数量。我想我可以只获取聚类并手动观察同一聚类中实体之前未观察到的相似性。

我的问题如下:

  1. 同一群集的元素是否真的相关?

  2. "质量"每个集群中的集群是否相同?我该如何验证呢?

1 个答案:

答案 0 :(得分:0)

关于你的第一个问题,它不是一个很好的问题,因为我们的数据没有标签,我们使用聚类算法来标记它(你知道在聚类后我们有聚类1,2, ...或a,b,c或您要分配的标签

和你的第二个问题:

在对数据进行群集后,您可以使用一些衡量标准来了解您执行群集的效果,看看这个

  http://www-users.cs.umn.edu/~kumar/dmbook/dmslides/

或分析结果的简单方法是计算每个聚类的熵测量值,熵测量值越少,结果越好(如果聚类数等于数据点数,则获得最佳熵,想一想)

从信息论的角度来看,熵测量表示在您正在查看的数据点中存储了多少信息(数据相同,他们可以携带的信息越少,请考虑DC< 1> ;它始终打开<(最低熵)>,它是我们唯一可以从中得到的东西,现在想想这个信号< 01011110 ...>它可以越多,您可以从中获得的信息越多<(更高的熵)> ...)回到业务,现在在聚类之后我们希望每个聚类中的数据点相似,因此每个聚类中的数据点越相似是熵度量越少。 祝你好运兄弟!