我有一个大小为> 35K /> 50维度的数据集。使用BIRCH算法进行聚类。在测试时,形成的簇的数据点不匹配,即数据点显示比原始簇更接近某些其他簇。这实际上是不正确的。在分析中发现问题是由于合并了两个集群(一个将更少,另一个具有非常高的数据点)。结果聚类的中心将向第二个聚类移动,使第一个聚类边缘上的点更接近其他聚类。
想要证明我的理解是正确的,并且看看是否有任何其他经过验证的方法来缓解这个问题。
答案 0 :(得分:1)
在实施BIRCH时,首先处理重叠程度较低的数据会更容易,然后使用所有4个距离度量和良好的样本数据确认一切正常。使用BIRCH,这变得非常复杂和丑陋,并成为调试的噩梦。
如果您看到移位,那么使用群集内距离测量的方式可能确实存在问题。另一种可能的解释是CF树生成本身存在错误。使用一些独立的良好编码实现(例如R或Matlab)检查是否在重叠子空间内检测到导致合并的那些点。然后删除导致重叠的数据点,并在您的实现中再试一次。如果错误消失了,那么很好地表明你有CF生成的错误(即,你不应该分裂或合并)。