k-means聚类的变量选择

时间:2014-10-23 13:51:01

标签: cluster-analysis data-mining weka k-means spss

我想知道是否有任何好方法可以为k-means算法选择变量。我正在尝试使用此算法进行市场细分,并且拥有包含许多潜在变量的数据集。我希望结果很容易解释,所以我应该将变量的数量限制为最大。 5-6。我对可以在SPSS Statistics或Weka中实现的解决方案特别感兴趣。 另外,是否有一种方法/算法可以获得用于聚类的最佳变量数量(即我应该使用多少'好'变量)?

2 个答案:

答案 0 :(得分:0)

尝试因子分析,应该有所帮助。没有。您使用的因素将取决于具有特征值> = 1的变量的数量。 找到无因子后,使用fa()函数查找加载值并确定需要保留哪些变量以及丢弃哪些变量。它还有助于消除高度多线性变量。

答案 1 :(得分:0)

要使用 k -means获得更好的结果,请考虑检查原始数据中数字要素的标准差 - 更广泛的数据传播可以更好地分离对象。与因子分析 FA 一起,可以考虑使用主成分分析 PCA 来找出哪些特征在数据中具有大部分方差,并使用强烈表达的特征结果组件。