K均值:只有两个最佳聚类

时间:2018-03-06 20:53:33

标签: machine-learning statistics cluster-analysis modeling

我正在R中运行k-means算法并尝试找到最佳簇数k。使用剪影方法,差距统计和弯头方法,我确定最佳聚类数为2.虽然没有预定义的聚类用于业务,但我担心k = 2不太有洞察力,这导致我有几个问题。

1)就数据的自然聚类而言,最优k = 2意味着什么?这是否表明可能没有明确的集群或没有集群比任何集群更好?

2)在k = 2时,R平方为低(.1)。在k = 5时,R平方更好(.32)。选择k = 5的确切权衡是什么,知道它不是最优的?是否可以增加集群,但它们可能不够明显?

3)我的n = 1000,我有100个变量可供选择,但只从领域知识中选择了5个。增加变量的数量是否必然会使聚类更好?

4)作为问题3的后续,如果引入变量并降低R平方,那么对变量有什么看法呢?

1 个答案:

答案 0 :(得分:1)

我不是专家,但我会尽力回答:

1)你的最佳聚类数方法给你k = 2,这样就可以看出有明显的聚类数这个数字很低(2)。为了帮助解决此问题,请尝试使用您对域名的了解来帮助解释,在您的域名中,2个群集是否有意义?

2)是的,你是对的。就R平方而言,最优解是拥有与数据点一样多的聚类,但就你为何采用k均值而言,这并不是最优的。你正在做k-means从数据中获取更有见地的信息,这是你的首要目标。因此,如果您选择k = 5,那么您的数据将更适合您的5个群集,但正如您所说,它们之间可能没有太大区别,因此您无法获得任何洞察力。

3)不一定,实际上盲目加入会使情况变得更糟。 K-means在欧几里德空间中运行,因此在确定聚类时,每个变量都具有均匀的权重。如果添加不相关的变量,它们的值仍然会扭曲n-d空间,从而使群集变得更糟。

4)(在这里仔细检查我的逻辑我不是100%在这个上)如果一个变量被引入到相同数量的簇并且它丢弃了R平方那么是它是一个有用的变量来添加它,它意味着它与您的其他变量有关联。