在对机器人进行群集之后开发Web机器人爬虫系统

时间:2016-03-16 07:05:22

标签: machine-learning cluster-computing cluster-analysis k-means

我正在尝试在一段时间内识别高命中率的IP。

根据群集的质心值,我已经对某些特征进行了聚类,获得了12个群集输出,其中8个是机器人,4个是人类。

现在我可以使用什么技术来分析集群中的数据,以便知道集群中的数据点位于正确的集群中。

换句话说,是否有任何统计方法来检查集群的质量。?

我能想到的是,如果我采用位于群集边界的数据点,如果我测量该点与其他Centroids的距离以及它自己的Centroid的距离,那么我可以了解如何关闭这两个集群是我的观点,也许我的数据在集群中划分得有多好?

请指导如何衡量群集的质量,数据点以及执行此操作的标准技术。

先谢谢。!! 干杯。!

1 个答案:

答案 0 :(得分:0)

使用k-means,你可能已经拥有了大量的垃圾。因为它是一个令人难以置信的原始启发式,除非你非常小心地设计你的功能(此时你已经知道如何检查群集分配的质量),结果几乎不比随机选择几个质心好。尤其是k-means,它对您的功能规模非常敏感。如果你有不同类型和规模的特征(例如身高,鞋子尺寸,体重,BMI:这些变量的k均值是统计无意义的),结果是非常不可靠的。

将数据转储到群集算法中,并希望获得有用的东西。集群遵循GIGO原则:垃圾中垃圾。相反,您需要按以下步骤操作:

  1. 确定您域中的优秀群集 。这非常依赖于数据和问题。
  2. 选择具有非常类似目标的聚类算法。
  3. 找到聚类算法的数据转换,距离函数或修改以与您的目标对齐
  4. 仔细检查结果,找出琐碎的,不需要的,有偏见的和随机的解决方案。
  5. 例如,如果您盲目地将客户数据投入到聚类算法中,则可能会将最佳答案决定为2个聚类,对应于属性“gender = m”和“gender = f”,因​​为这是数据中最极端的因素。但因为这是一个知道属性,这个结果完全没用。