如何评估我的集群算法

时间:2017-03-06 16:25:47

标签: java weka data-mining

我在weka中使用简单的k-mean聚类开始聚类

聚类后,此结果显示

  

迭代次数:9

     

群集误差平方:570.1974952009115

我的问题:

  1. 平方误差总和的数量是巨大的,这是否意味着我的群集数量是错误的?以及如何定义乐观的集群数量?

  2. 如何将数据拆分为训练和测试集以评估性能?以及如何知道正确的百分比?

  3. 如何衡量SSB

1 个答案:

答案 0 :(得分:0)

1.1在k-means中,决定选择多少个群集。你可能已经知道了。

1.2在k-means中,没有最佳数量的聚类,如“函数图的全局最大值”。您决定是否存在业务问题。另请参阅“elbow method”,了解在实践中很少有用的半经验程序。

1.3您的数据中可能存在异常值,使得任何群集操作的平方和变大。无论您选择多少个群集,异常值总是远离您的群集中心。

2.1没有“最佳”百分比分割。

2.2您可以使用可视化来检查群集中是否存在任何重叠。对于您的受众来说,更容易理解“决策边界”。

3.1什么是SSB?