我正在处理一个带有标签的小型数据集,30个样本和29000个功能。出乎意料的是,使用KernelPCA,通过仅保留5个主要成分来解释我的数据的40%差异,K-Means无监督聚类方法确实非常有效。 是否有任何方法可以找到或恢复原始功能集或子集,这些功能集或归因于KernelPCA转换后的主成分?
由于数据的维数非常大(29000),我只想确定那些对于类分离具有确定性的功能。我已经尝试过线性PCA,LDA和TSNE。在我的数据集上,它们都没有表现良好。 KernelPCA可以很好地处理数据集,但对我来说却比较晦涩。 还是应该为此功能应用特征选择方法?
感谢您的时间和考虑:)