R:列车数据集的k倍交叉验证

时间:2017-11-20 12:47:35

标签: r machine-learning classification

我正在使用R中的C5.0对心脏病数据集进行一些分类任务,在大多数情况下,数据将分为80%用于培训,20%用于测试,  我想使用k折交叉验证(k = 10),但我对这一点感到困惑,正如我们通过使用10倍交叉验证所知,我们将整个数据分成9个子集用于火车和一个子集用于测试。

是否有可能将数据划分为80%用于培训,20%用于测试,然后对列车数据应用k折叠交叉验证? 或者我必须在整个数据集上应用k折交叉验证?

2 个答案:

答案 0 :(得分:1)

一个选项是k = 5。在这种情况下,你训练80%,测试20%。但为此你不需要使用k-fold交叉验证。

k-fold交叉验证始终在整个数据集上。因此,当k = 5时,有5种可能的情景经过测试和比较。

答案 1 :(得分:0)

在整个数据集上应用k折交叉验证是更好的选择。与此方法一样,数据将分为 k 折叠,其中 k-1 折叠用于训练,剩余的1折用于测试。通过这种方式,一旦交叉验证结束,您将获得完整数据的性能。

但需要注意的是,对于大多数分类问题,参数调整是一个重要的步骤。因此,您可以考虑50%的数据来找到分类器的最佳参数。此处也使用交叉验证方法。