确定数据输入的重要子组

时间:2012-06-03 22:18:31

标签: r machine-learning

我有一个大的(10000 X 5001)表,代表10000个样本和5001个这些样本的不同特征。这些特征之一表示每个样本的输出变量。换句话说,我为每个样本提供了5000个输入变量和一个输出变量。

我知道大多数这些输入都是无关紧要的。因此,我想要做的是确定最佳预测输出变量的输入变量子集。 R中最好/最简单的方法是什么?

3 个答案:

答案 0 :(得分:0)

您可能需要主成分分析(stats :: prcomp)或线性判别分析(MASS :: lda)。

见Avril Coghlan撰写的这份文件

http://little-book-of-r-for-multivariate-analysis.readthedocs.org/en/latest/

答案 1 :(得分:0)

您可能想查看Weka。在Explorer中加载数据,然后转到Select attributes标签。在那里,您可以找到几个选项来获取数据集中信息最丰富的属性/功能。

答案 2 :(得分:0)

为什么不转到CRAN Task View for Cluster Analysis & Finite Mixture Models

,而不是采用“随机”建议