我们知道有一些算法可以减少数据集的维度,如PCA和Isomap
假设我们有一个包含100,000个属性的数据集,例如Dorothea Data Set (由结构分子特征代表的化合物必须归类为活性(与凝血酶结合)或无活性。这是NIPS 2003特征选择挑战的5个数据集之一。)
Data Set Characteristics: Multivariate
Number of Instances: 1950
Area: Life
Attribute Characteristics: Integer
Number of Attributes: 100000
Date Donated 2008-02-29
Associated Tasks: Classification
Missing Values? N/A
Number of Web Hits: 17103
答案 0 :(得分:1)
特定于Matlab,您可以从他们Statistics Toolbox的手册中获取一些想法。
查找“特征选择”和“特征转换”部分。此外,我会尝试SVD,FastMap和RobustMap。您需要仔细阅读每个内容并确定哪一个最适合您的数据。
答案 1 :(得分:0)
最大变化展开最近是一种特别受欢迎的技术。类似的方法称为结构保留嵌入在ICML 2009上获得了最佳论文。其他一些技术包括拉普拉斯算子图,局部线性嵌入和核PCA。