我有一个包含三个部分的数据集(训练验证测试)。调整C参数的最佳方法是什么?我是否接受培训并在验证分区上进行评估?当您已经有一部分数据时,执行k倍验证是否正确?
任何解释将不胜感激。 谢谢
答案 0 :(得分:0)
我通常不会将数据分为3部分。我随机使用20%的火车数据进行5-10次迭代验证,并使用不同的C来检查准确性。
假设我需要进行5次迭代和4种不同的C检查:
**Iteration** **C** **Accuracy**
1 10 92
1 1 91.23
1 0.1 90.9
1 0.01 89.88
类似地,我还要进行5次以上的迭代(每个迭代从火车数据中随机提供一个新的验证集),并且将沿不同迭代具有最高平均精度的C值选作最佳参数。
或者,您可以使用GridSearchCV或RandomizedSearchCV来实现相同的目的。