关于聚类方法的问题

时间:2010-11-04 15:59:30

标签: artificial-intelligence machine-learning data-mining neural-network

最近我开始研究数据挖掘中的聚类,我研究了顺序聚类和层次聚类以及k-means。

我还读到了一个将k-means与其他两种聚类技术区分开来的声明,称k-means在处理名义属性方面不是很擅长,但是文本没有解释这一点。到目前为止,只有我可以看到的差异是,对于K-means,我们事先会知道我们将需要确切的K个集群,而我们不知道其他两个集群方法需要多少个集群。

所以有人可以在这里给我一些关于为什么存在这样的陈述的想法,即k-means在处理名义属性的例子时有这个问题,有没有办法克服这个问题?

提前致谢。

1 个答案:

答案 0 :(得分:5)

k-means算法通过获取群集中所有点的平均值来计算群集质心。如果参数是标称值,则不能取平均值。

有时可以将名义值放入一种顺序,然后映射到实际值。例如,一周中的几天可以映射到范围[1.0 - 7.0],但有时候有时也是不可能的,例如值为[Windows,Linux,OSX]的属性。