维度算法的最新技术

时间:2011-03-12 17:08:13

标签: matlab artificial-intelligence data-mining dimensions

我们知道有一些算法可以减少数据集的维度,如PCA和Isomap

  • 这是什么样的艺术 减少数据集的维数。
  • 你有一个例子吗,也许是在MATLAB上?

假设我们有一个包含100,000个属性的数据集,例如Dorothea Data Set (由结构分子特征代表的化合物必须归类为活性(与凝血酶结合)或无活性。这是NIPS 2003特征选择挑战的5个数据集之一。)

Data Set Characteristics:   Multivariate

Number of Instances:        1950

Area:                       Life

Attribute Characteristics:  Integer

Number of Attributes:       100000

Date Donated                2008-02-29

Associated Tasks:           Classification

Missing Values?             N/A

Number of Web Hits:         17103

2 个答案:

答案 0 :(得分:1)

特定于Matlab,您可以从他们Statistics Toolbox的手册中获取一些想法。

查找“特征选择”和“特征转换”部分。此外,我会尝试SVD,FastMap和RobustMap。您需要仔细阅读每个内容并确定哪一个最适合您的数据。

答案 1 :(得分:0)

最大变化展开最近是一种特别受欢迎的技术。类似的方法称为结构保留嵌入在ICML 2009上获得了最佳论文。其他一些技术包括拉普拉斯算子图,局部线性嵌入和核PCA。