应用错误收集

时间：2012-06-03 22:18:31

标签： r machine-learning

我有一个大的（10000 X 5001）表，代表10000个样本和5001个这些样本的不同特征。这些特征之一表示每个样本的输出变量。换句话说，我为每个样本提供了5000个输入变量和一个输出变量。

我知道大多数这些输入都是无关紧要的。因此，我想要做的是确定最佳预测输出变量的输入变量子集。 R中最好/最简单的方法是什么？

答案 0 :(得分：0)

您可能需要主成分分析（stats :: prcomp）或线性判别分析（MASS :: lda）。

见Avril Coghlan撰写的这份文件

答案 1 :(得分：0)

您可能想查看Weka。在Explorer中加载数据，然后转到Select attributes标签。在那里，您可以找到几个选项来获取数据集中信息最丰富的属性/功能。

答案 2 :(得分：0)

，而不是采用“随机”建议