如何拆分测试和训练大小

时间:2020-07-01 01:21:55

标签: python tensorflow testing scikit-learn

我正在尝试使用包含1000个数字的数据集来提供CNN模型(人体姿势估计), 首先,如何确保数据集数量已经足够? 第二,我应该如何拆分我的数据以训练和测试大小? (当我将火车尺寸设为0.6且test_size = 0.4时,网络运行不正常,并向我显示NAN的权重,偏差和损失值!)

1 个答案:

答案 0 :(得分:0)

没有固定的方法来确定何时具有足够的大小数据集。这取决于许多因素。最好的办法就是利用自己拥有的东西运行,并查看其性能。我通常将数据分成3组,分别是训练,验证和测试。我通常尝试进行75%的训练,15%的验证和10%的最终测试。验证集是我用来计算超级参数的时间。最初,我监视训练的准确性和损失。如果我可以将验证率提高到95%以上,那么我将监控验证的准确性和损失。我使用model_checkpoint keras回调函数来保存验证损失最小的模型。如果验证准确性和损失不令人满意,我将使用超参数来尝试改善它。我发现使用可调学习率可达到此目的。最后,当我对训练准确性和验证准确性感到满意时,我将使用保存的模型对测试集进行预测。这是模型性能的最终度量。