SVM参数调整与最终评估中的主要组件数量

时间:2019-04-20 11:05:10

标签: svm pca cross-validation

在将数据馈送到SVM之前,我正在使用PCA缩小数据尺寸(50个样本x 32767个特征)。我正在使用以下交叉验证方案来调整SVM内核的参数,请参见图。因此,对于测试集,我有5个样本,对于3倍CV,每个样本要折叠15个样本。由于仅对训练数据执行PCA,这意味着对于每个分组,经历PCA的样本数量为30,对于最终评估为45。由于PCA重新调整了最多n-1个主成分,其中n是样本数,因此I每次拆分可获得29个主要成分,最终训练集则包含44个主要成分。我的问题是,当我探索分类中使用的主要组件数量的影响时,假设我要使用5台PC,是否在参数调整部分(3个分割)和最终评估中都使用5台PC,或者在参数调整中使用5台PC,在最终评估中使用整套PC(44)?

cross-validation

我之所以问是因为,在最终评估中使用44时,我获得了更好的准确性,但是我并不真正理解为什么。我觉得如果使用5台PC来调整参数,那么更多PC不会对最终精度产生影响。但是我也很困惑,因为每个分组以及最终评估的PC本质上都是不同的。也就是说,一个分组的前5台PC与另一个分组的前5台PC也不相同,也与最终训练集中的前5台PC也不相同。

我也不明白选择的PC数量如何影响参数调整和最终评估。

是否有执行此操作的标准方法?如果可以,还请您提供参考吗?谢谢

0 个答案:

没有答案