我正在对几百个变量进行线性判别分析,并使用插入的“训练”功能和内置模型“stepLDA”来选择最“信息化”的变量。这是我要测试的几种模型类型之一。
基本上,当我调用输出对象(类型为 train )时,我得到一个与此类似的对象(较小的示例模型):
Linear Discriminant Analysis with Stepwise Feature Selection
72 samples
71 predictors
2 classes: 'Cancer', 'Normal'
No pre-processing
Resampling: Cross-Validated (3 fold, repeated 1 times)
Summary of sample sizes: 48, 48, 48
Resampling results
Accuracy Kappa Accuracy SD Kappa SD
0.6388889 0.2777778 0.06364688 0.1272938
Tuning parameter 'maxvar' was held constant at a value of 50
Tuning parameter 'direction' was held constant at a value of forward
但是,当我调用最终模型(类 stepclass )时,我得到:
method : lda
final model : y ~ Age + X4 + X167 + X184 + X274 + X416 + X548 + X571 + X594
+ X611 + X618 + X634 + X1094 + X1632 + X1921 + X2437 + X3018 + X3474
<environment: 0x000000001dad6890>
accuracy = 0.8538
我的问题是:0.6388889的准确度是指什么。我知道这是一个交叉验证的准确度,但它是否是在逐步选择之前首先在所有71个预测器上构建的LDA模型?或者还有另一个步骤吗?
我知道0.8538指的是训练数据集中最终选定模型的10倍交叉验证精度。我想弄清楚哪种模型报告的准确度是合适的?
感谢任何人都能给予的帮助:)