标签: python-3.x machine-learning cluster-analysis k-means
我有2000个积分,基本上是协会足球传球起点的x,y坐标。我想对其运行k-均值聚类算法,以对其进行分类,以获取最常见的10个通行证(k = 10)。但是,我不想预测未来价值的任何观点。我只想使用现有数据。我仍然需要将其拆分为测试培训集吗?我认为只有在我们想要在特定集合上训练模型以计算未来值时才完成它们(?) 我是集群(和整个Python)的新手,所以可以提供任何帮助。
答案 0 :(得分:0)
否,在聚类(即无监督学习)中,您不需要拆分数据
答案 1 :(得分:0)
我不同意答案。聚类具有作为度量标准的准确性。如果您不将数据分为训练和测试,那么很可能会过度拟合模型。请参阅这些类似的问题1,2,3。请注意,将数据拆分为训练/测试集与被监督或未被监督的问题无关。