如何从交叉验证的数据创建学习曲线?

时间:2015-04-15 19:59:08

标签: validation machine-learning artificial-intelligence neural-network cross-validation

我有一个使用10倍交叉验证的算法。在训练集中,我使用其中一个折叠来验证训练模型,然后将所学习的模型放在旁边进行测试。

我想创建一个学习曲线,这意味着我需要改变训练集的大小。这是否意味着我还会改变验证集的大小以及训练数据?这是否意味着我需要更改测试集的大小(除了训练和验证折叠之外的折叠)?

1 个答案:

答案 0 :(得分:3)

10倍交叉验证通过获取标记数据的训练集并将其划分为10个相等大小的子集来工作。将9个子集组合到新的训练集中,剩余的1个子集用于验证/测试,即模型在原始训练集的90%上训练并在10%上进行测试。

这在10个子集中的每个子集上执行10次(折叠),因此每个子集用于测试。在每次迭代时执行测试的性能测量,并且在完成所有迭代之后,计算平均值。

没有什么叫做#34;训练折叠"或者"测试折叠",折叠是过程的迭代。在此过程中也没有保留子集,每次迭代都使用所有子集。

要创建学习曲线,您所说的可以简单地改变原始训练集的大小,让10倍交叉验证过程按原样运行。原始训练集中的记录数量是您对训练集大小的度量,性能是交叉验证完成时给定的平均值。