我是否需要多个模型进行交叉验证?

时间:2021-06-22 16:13:13

标签: machine-learning data-analysis cross-validation

所以我看到了不同的交叉验证实现。 我目前正在使用 pytorch 来训练神经网络。 我当前的布局如下所示: 我有 6 个离散数据集。 5 个用于交叉验证。

Network_1 trains on Datasets: 1,2,3,4 computes loss on 5
Network_2 trains on Datasets: 1,2,3,5 computes loss on 4
Network_3 trains on Datasets: 1,2,4,5 computes loss on 3
Network_4 trains on Datasets: 1,3,4,5 computes loss on 2
Network_5 trains on Datasets: 2,3,4,5 computes loss on 1

然后是第 2 期,我再次完全相同:

Network_1 trains on Datasets: 1,2,3,4 computes loss on 5
Network_2 trains on Datasets: 1,2,3,5 computes loss on 4
Network_3 trains on Datasets: 1,2,4,5 computes loss on 3
Network_4 trains on Datasets: 1,3,4,5 computes loss on 2
Network_5 trains on Datasets: 2,3,4,5 computes loss on 1

为了在数据集 6 上进行测试,我应该合并来自所有 5 个网络的预测并取预测的平均分数(仍然需要对预测矩阵进行平均)。

我是否正确理解了交叉验证?这是它应该如何工作?这会正常工作吗? 我努力不使用我已经训练过的数据进行测试。我还是没有

非常感谢您的帮助:)

1 个答案:

答案 0 :(得分:0)

您绝对可以使用神经网络进行交叉验证,但由于神经网络是计算要求高的模型,因此通常不会这样做。为了减少方差,在神经网络中还有其他常用的技术,例如提前停止或退出。

话虽如此,我不确定您是否以正确的方式应用它。您应该跨所有时期进行训练,以便:

Network_1 trains on Datasets: 1,2,3,4 up to the end of training. Then computes loss on 5
Network_2 trains on Datasets: 1,2,3,5 up to the end of training. Then computes loss on 4
Network_3 trains on Datasets: 1,2,4,5 up to the end of training. Then computes loss on 3
Network_4 trains on Datasets: 1,3,4,5 up to the end of training. Then computes loss on 2
Network_5 trains on Datasets: 2,3,4,5 up to the end of training. Then computes loss on 1

一旦每个网络都训练到训练结束(因此在所有时期内),并在被遗漏的数据集(称为验证数据集)上进行验证,您就可以对获得的分数求平均值。
这个分数(实际上是交叉验证的真正点)应该给你一个公平的模型评估,当你要在测试集上测试它时,它不应该下降(你从一开始就从训练中遗漏的那个) ).

交叉验证通常与某种形式的网格搜索配对使用,以对要比较的不同模型产生无偏的评估形式。因此,例如,如果您想比较在某些参数方面不同的 NetworkANetworkB,您可以对 NetworkA 使用交叉验证,对 NetworkB 使用交叉验证,然后采用交叉验证得分最高的那个作为最终模型。

作为最后一步,一旦你决定哪个是最好的模型,你通常会用你在训练集中的所有数据(即你的例子中的数据集 1、2、3、4、5)重新训练你的模型并测试它测试集(数据集 6)上的模型。