我正在使用libsvm进行分类任务。我有10倍交叉验证,其中F1得分为0.80。但是,当我将训练数据集分成两个(一个用于训练而另一个用于测试,我将其称为保持测试集)时,F1得分降至0.65。分割比例为.8至.2。
所以,我的问题是,进行k折交叉验证与保持测试有什么显着差异?这两种技术中的哪一种会产生一种概括良好的模型?在这两种情况下,我的数据集都会缩放。
答案 0 :(得分:5)
存在巨大差异,但精确分析需要大量统计数据。如需深入理解,请参阅Hastie,Tibshirani和Friedman的The Elements of Statistical Learning: Data Mining, Inference, and Prediction。
简而言之:
答案 1 :(得分:0)
不同之处在于使用了一个分割,如果你尝试另一种方法将数据分成训练/测试(可能是通过改组),你会得到另一个值。因此,创建多个集合并对所有F1分数求平均值将得到相当于CV的结果。而CV更好地概括。