我有一个大的(10000 X 5001)表,代表10000个样本和5001个这些样本的不同特征。这些特征之一表示每个样本的输出变量。换句话说,我为每个样本提供了5000个输入变量和一个输出变量。
我知道大多数这些输入都是无关紧要的。因此,我想要做的是确定最佳预测输出变量的输入变量子集。 R中最好/最简单的方法是什么?
答案 0 :(得分:0)
您可能需要主成分分析(stats :: prcomp)或线性判别分析(MASS :: lda)。
见Avril Coghlan撰写的这份文件
http://little-book-of-r-for-multivariate-analysis.readthedocs.org/en/latest/
答案 1 :(得分:0)
您可能想查看Weka。在Explorer
中加载数据,然后转到Select attributes
标签。在那里,您可以找到几个选项来获取数据集中信息最丰富的属性/功能。
答案 2 :(得分:0)
为什么不转到CRAN Task View for Cluster Analysis & Finite Mixture Models?
,而不是采用“随机”建议