我在weka中使用简单的k-mean聚类开始聚类
聚类后,此结果显示
迭代次数:9
群集误差平方:570.1974952009115
我的问题:
平方误差总和的数量是巨大的,这是否意味着我的群集数量是错误的?以及如何定义乐观的集群数量?
如何将数据拆分为训练和测试集以评估性能?以及如何知道正确的百分比?
如何衡量SSB
答案 0 :(得分:0)
1.1在k-means中,你决定选择多少个群集。你可能已经知道了。
1.2在k-means中,没有最佳数量的聚类,如“函数图的全局最大值”。您决定是否存在业务问题。另请参阅“elbow method”,了解在实践中很少有用的半经验程序。
1.3您的数据中可能存在异常值,使得任何群集操作的平方和变大。无论您选择多少个群集,异常值总是远离您的群集中心。
2.1没有“最佳”百分比分割。
2.2您可以使用可视化来检查群集中是否存在任何重叠。对于您的受众来说,更容易理解“决策边界”。
3.1什么是SSB?