机器学习聚类算法:k均值和高斯混合

时间:2015-12-11 23:25:15

标签: algorithm machine-learning artificial-intelligence computer-science

假设我们使用两种不同的聚类算法聚类一组N个数据点:k-means和Gaussian混合。在这两种情况下,我们获得了5个簇,并且在两种情况下,簇的中心完全相同。可以将分配给kmeans解决方案中不同聚类的3个点分配给高斯混合解决方案中的同一个聚类吗?如果没有,请解释。如果是这样,请草拟一个例子或用1-2句话解释。

1 个答案:

答案 0 :(得分:2)

根据我对机器学习理论的理解,高斯混合模型(GMM)和K-Means在K-Means是硬聚类算法的基本设置上有所不同,而GMM是一种软聚类算法。 K-Means将每个点分配给一个簇,而GMM将给出一个概率分布,表明该点属于5个簇中每个簇的概率。此外,这还取决于您用于GMM的参数类型。如果使用常数方差,GMM可能会产生类似于K-Means的聚类。

现在,我不确定这一点,因为您需要提供有关如何从GMM中选择硬集群的更多信息以及如何计算集群中心。如果您只是根据具有最大概率的群集从GMM进行硬分配,那么它们可能会被分配到相同的群集。在我看来,只有当数据点易于分离并且您的GMM假定方差不变时,才有可能实现这一点。

就集群中心而言,它取决于您计算它们的方式。如果您使用从GMM获得的平均向量,则K-Means和GMM非常不可能为您提供相同的聚类中心。另一方面,如果您是第一次生成如上所述的硬集群然后自己计算中心,则当K-Means和GMM中所有点的硬聚类相同时,它们可能具有相同的中心

我认为您应该提供有关您这样做的更多信息,以便社区成员可以更好地为您提供帮助。此外,您还应该很好地识别您的用例,并决定是否需要硬聚类或软聚类。仅当您需要软聚类和/或您事先确信您的数据点是从每个聚类的高斯分布生成时才选择GMM。