应用错误收集

我正在尝试在一段时间内识别高命中率的IP。

根据群集的质心值，我已经对某些特征进行了聚类，获得了12个群集输出，其中8个是机器人，4个是人类。

现在我可以使用什么技术来分析集群中的数据，以便知道集群中的数据点位于正确的集群中。

换句话说，是否有任何统计方法来检查集群的质量。？

我能想到的是，如果我采用位于群集边界的数据点，如果我测量该点与其他Centroids的距离以及它自己的Centroid的距离，那么我可以了解如何关闭这两个集群是我的观点，也许我的数据在集群中划分得有多好？

请指导如何衡量群集的质量，数据点以及执行此操作的标准技术。

先谢谢。!! 干杯。！

使用k-means，你可能已经拥有了大量的垃圾。因为它是一个令人难以置信的原始启发式，除非你非常小心地设计你的功能（此时你已经知道如何检查群集分配的质量），结果几乎不比随机选择几个质心好。尤其是k-means，它对您的功能规模非常敏感。如果你有不同类型和规模的特征（例如身高，鞋子尺寸，体重，BMI：这些变量的k均值是统计无意义的），结果是非常不可靠的。

不将数据转储到群集算法中，并希望获得有用的东西。集群遵循GIGO原则：垃圾中垃圾。相反，您需要按以下步骤操作：

确定您域中的优秀群集。这非常依赖于数据和问题。

选择具有非常类似目标的聚类算法。

找到聚类算法的数据转换，距离函数或修改以与您的目标对齐

仔细检查结果，找出琐碎的，不需要的，有偏见的和随机的解决方案。

例如，如果您盲目地将客户数据投入到聚类算法中，则可能会将最佳答案决定为2个聚类，对应于属性“gender = m”和“gender = f”，因为这是数据中最极端的因素。但因为这是一个知道属性，这个结果完全没用。

在对机器人进行群集之后开发Web机器人爬虫系统

1 个答案: