我正在应用kmean算法来集群我的客户群。我在概念上在维度(变量)的选择过程中苦苦挣扎,以包含在模型中。我想知道是否有建立方法来比较具有不同变量的模型。特别是,我正在考虑使用常见的SSwithin / SS之间比率,但我不确定这是否可以应用于比较具有不同维数的模型...... 任何建议>? 非常感谢。
答案 0 :(得分:0)
经典方法是顺序选择算法,如“顺序浮点正向选择”(SFFS)或“顺序浮点反向消除”(SFBS)。这些是启发式方法,您可以根据性能指标消除(或添加)当时的一个功能例如,均方误差(MSE)。另外,如果你愿意,可以使用遗传算法。
这是一篇随和的论文,总结了这些想法: Feature Selection from Huge Feature Sets
更高级的一个可能有用:Unsupervised Feature Selection for the k-means Clustering Problem
编辑:
当我再次考虑它时,我最初的问题是“如何选择 k (固定数字)最佳特征(其中k 我必须承认,我在监督而非无监督的方法方面有更多的经验。因此,在解决“维度诅咒”时,我通常更喜欢正则化而不是特征选择/降维。我经常使用维度降低来进行数据压缩。