我正在尝试在一段时间内识别高命中率的IP。
根据群集的质心值,我已经对某些特征进行了聚类,获得了12个群集输出,其中8个是机器人,4个是人类。
现在我可以使用什么技术来分析集群中的数据,以便知道集群中的数据点位于正确的集群中。
换句话说,是否有任何统计方法来检查集群的质量。?
我能想到的是,如果我采用位于群集边界的数据点,如果我测量该点与其他Centroids的距离以及它自己的Centroid的距离,那么我可以了解如何关闭这两个集群是我的观点,也许我的数据在集群中划分得有多好?
请指导如何衡量群集的质量,数据点以及执行此操作的标准技术。
先谢谢。!! 干杯。!
答案 0 :(得分:0)
使用k-means,你可能已经拥有了大量的垃圾。因为它是一个令人难以置信的原始启发式,除非你非常小心地设计你的功能(此时你已经知道如何检查群集分配的质量),结果几乎不比随机选择几个质心好。尤其是k-means,它对您的功能规模非常敏感。如果你有不同类型和规模的特征(例如身高,鞋子尺寸,体重,BMI:这些变量的k均值是统计无意义的),结果是非常不可靠的。
不将数据转储到群集算法中,并希望获得有用的东西。集群遵循GIGO原则:垃圾中垃圾。相反,您需要按以下步骤操作:
例如,如果您盲目地将客户数据投入到聚类算法中,则可能会将最佳答案决定为2个聚类,对应于属性“gender = m”和“gender = f”,因为这是数据中最极端的因素。但因为这是一个知道属性,这个结果完全没用。